Тема: Разработка программ для исследования характеристик веб-пространства крупной организации
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 4
Глава 1. Теоретическое описание работы 5
1.1. Краулер 5
1.1.1. Описание краулера 5
1.1.2. Блок-схема программы-краулера 6
1.2. Веб-граф 7
1.3. PageRank 7
1.4. Компонента сильной связности 8
1.5. Клика в орграфе 9
Глава 2. Результаты работы 11
2.1. Практическая реализация 11
2.1.1. Инструменты 11
2.1.2. Работа краулера 11
2.1.3. Построение веб-графа 15
2.1.4. Характеристики веб-графа 17
2.2. Исследование 20
2.3. Тестирование 23
Выводы 24
Заключение 24
Список литературы 24
Приложение 25
📖 Введение
Веб-сайт - совокупность html-страниц и веб-документов, связанных внутренними гиперссылками [6] и обладающих единством содержания, идентифицируемая в Вебе по уникальному доменному имени.
Определим внутренние гиперссылки, как гиперссылки, которые ссылаются на html-страницы заданного веб-пространства, при этом URL-источник является также html-страницей из этого веб-пространства.
Веб-пространство организации - это множество, состоящее из вебсайтов организации, которые связаны между собой гиперссылками. У вебпространства всегда можно выделить его “головной сайт”, официальный сайт организации.
В данной работе будут рассмотрены веб-пространства нескольких университетов России (к примеру, Санкт-Петербургского государственного университета, Московского государственного университета), нескольких научных институтов (к примеру, Российской академии наук, Института вычислительных технологий СО РАН) и нескольких крупных организаций России (к примеру, ПАО “Газпром”, Роснефть).
Уровень веб-страницы определим следующим образом: начальная страница, передаваемая краулеру, определяемая по уникальному доменному имени, имеет уровень 0. Уровень любой другой страницы - это минимальное количество внутренних гиперссылок, ведущих от начальной страницы к данной.
Для описания веб-пространства можно использовать веб-граф. В общем случае веб-граф - это ориентированный граф, вершинами которого являются html-страницы, ребра - гиперссылки связывающие данные вершины. В данной работе веб-граф будет представлен в виде списочной структуры, состоящей из пар сайтов (сайт1, сайт2) организации и количества дуг между ними (количество всех гиперссылок ссылающихся с сайта1 на сайт2).
Для того, чтобы построить веб-граф сайта, необходимо получить сведения о его структуре: html-страницы и гиперссылки связывающие их. В частности в данной работе необходимо получить URL-адреса веб-сайтов веб-пространства и внутренние гиперссылки между ними. Для сбора данной информации необходима программа-краулер. Краулер или же поисковой робот - программа, предназначенная для перебора страниц сети Интернет с целью сбора и/или занесения определённой информации в некую базу знаний. С общими принципами разработки краулера можно ознакомиться в работе [4].





