Тип работы:
Предмет:
Язык работы:


Исследование модулярности веб-графа сайта

Работа №76350

Тип работы

Дипломные работы, ВКР

Предмет

программирование

Объем работы68
Год сдачи2016
Стоимость4300 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
36
Не подходит работа?

Узнай цену на написание


Содержание 2
Введение 3
Постановка задачи 5
Обзор литературы 7
Глава 1. Разработка программы сканирования сайта для построения его веб-графа 9
1.1. Требования к разрабатываемому приложению 9
1.2. Нормализация URL 11
1.3. Общая архитектура RCCrawler 13
1.4. Конфигурация RCCrawler для решения поставленной задачи 16
Глава 2. Исследования модулярности веб-графов сайтов 20
2.1. Основные определения 20
2.2. Построение вектора модулярности веб-графа сайта 22
2.3. Кластерный анализ на множестве векторов модулярности 22
Глава 3. Экспериментальная часть 24
3.1. Список исследуемых сайтов факультетов и институтов СПбГУ 24
3.2. Ход исследования 25
3.3. Сводные данные по результатам сканирования сайтов 26
3.4. Анализ значений модулярности 39
3.5. Кластеризация веб-сайтов 41
3.6. Кластеризация веб-сайтов на расширенном множестве 48
Выводы и заключение 50
Список литературы 52
Приложение


Вебометрика - раздел информатики, посвященный изучению количественных аспектов конструирования и использования информационных ресурсов, структур и технологий применительно к Всемирной паутине [1]. Основными структурами изучения вебометрики являются веб-сайты, рассматриваемые как атомарные неделимые единицы. К нашему времени структура веб-сайтов стала достаточной сложной сама по себе, и может быть сравнима с отдельными фрагментами Веба. Для описания такой структуры можно использовать веб-граф сайта - ориентированный граф, вершинами которого являются документы, а дугами гиперссылки между ними. Такой граф можно разбить на сообщества (кластеры, модули) - группы таких вершин, что количество ребер, связывающих вершины внутри сообщества намного больше, чем количество ребер связывающих сообщества.
Модулярность - это метрика, разработанная с целью измерения силы разбиения графа на сообщества. В данной работе ставится задача сравнения тематически близких сайтов в плане схожести по раздробленности структуры на сообщества через меру модулярности и анализ векторов модулярности. Полные определения будут даны в соответствующей главе.
В качестве объекта исследования выбрано множество сайтов факультетов и институтов Санкт-Петербургского государственного университета.
Для построения веб-графов сайтов была разработан специальный краулер (англ. crawler) - программа занимающаяся процессом следования по страницам сайта через гиперссылки, полученные с других страниц и внесенные пользователям вручную, с целью сбора определенной информации, статистики или сохранения ресурсов сайта. Далее такой процесс будет называться краулингом (англ. crawling).
Исследование, проведенное в данной работе, расширяет спектр знаний относящихся к вебометрике. С практической точки зрения результаты исследования могут быть полезны для усовершенствования структуры изучаемых сайтов с целью улучшения пользовательского опыта и индексируемости поисковыми машинами. Например, относительно большое сообщество, значительно отстоящее от основной части веб-графа, может оказаться по своей сути отдельным сайтом с отличающейся тематикой, вплетенным в структуру исследуемого. В дальнейшем разработанная программа для построения веб-графа сайта может быть использована для изучения структуры других веб-ресурсов с целью ее улучшения, например, поиска наиболее востребованной информации.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В дипломной работе рассмотрена задача применения вебометрических методов к заданному множеству сайтов с целью исследования вопроса о сходстве структурных характеристик близких по тематике сайтов.
В качестве оценки структурной характеристики веб-сайта была взята его модулярность и вектор модулярности, определяемый через мощности модулей, на которые разбивается веб-граф.
Была выдвинута гипотеза о том, что тематически одинаковые сайты близки по этим параметрам.
Была проделана следующая работа:
1. Был разработан RCCrawler - программа-краулер, сканирующая заданные веб-сайты и строящая их веб-граф.
2. Просканированы сайты институтов и факультетов СПбГУ, а также несколько других сайтов, не относящихся к сайтам СПбГУ, в качестве контрольных образцов.
3. Вычислены меры модулярности просканированных сайтов и построены их вектора модулярности.
4. Произведена процедура разбиения разбиения полученного множества векторов на сравнительно однородные группы методами кластерного анализа.
5. Проведен анализ полученного разбиения.
6. В качестве контрольного теста были построены веб-графы сайтов, не относящихся к СПбГУ, вычислены соответствующие меры модулярности и построены соответствующие вектора модулярности. Эти результаты были добавлены в основную группу, и для полученного множества были повторены пункты 4 и 5.
По мере модулярности и по результатам анализа векторов модулярности заданное множество сайтов оказалось неоднородным, однако, его разбиение по этим параметрам дает нам не очень большое количество подмножеств. Таким образом, нельзя утверждать об однозначном подтверждении или опровержении гипотезы: тема требует дальнейшего исследования.
По результатам исследования можно отметить, что немалое число сайтов обладает достаточно большой модулярностью и содержит в себе подсайты, которые вполне можно вынести в отдельные веб-ресурсы.
Для развития темы и получения более однозначных результатов в будущем необходимо повторить исследование на большем количестве множеств сайтов, объединенных одной тематикой.
Разработанное приложение RCCrawler может использоваться для построения веб-графов сайтов с целью последующего их анализа и изучения. Чтобы сделать его более удобным для применения, в дальнейшем планируется реализовать следующее:
1. Механизм выгрузки части данных из оперативной памяти во внешние хранилища.
2. Превращение приложения в сервер и написание к нему клиента с графическим интерфейсом, который будет отправлять команды и получать результаты краулинга.
Благодаря заложенной архитектуре эти доработки реализуемы и не столь сложны.



1. Bjorneborn L., Ingwersen P Toward a basic framework for webometrics // Journal of The American Society for Information Science and Technology. 2004. Vol 55(14). P 1216-1227.
2. Печников А.А., Чернобровкин Д.И. Об исследованиях веб-графа сайта // Материалы конференции «Управление в технических, эргатических, организационных и сетевых системах». - СПб.: «Концерн «ЦНИИ «Электроприбор», 2012, С. 1069-1072.
3. Pant G. Crawling the Web / G. Pant, P Srinivasan, F. Menczer // In Web Dynamics. M. Levene and A. Poulovassilis, eds. Springer, 2004. P.153-178.
4. Schonfeld U., Bar-Yossef Z., Keidar I. Do not crawl in the dust: different URLs with similar text // ACM Journal Name, Vol. 3. No.1. 2009. P 111-131.
5. Newman M.E.J. Modularity and community structure in networks // Proceedings of the National Academy of Sciences of the United States of America. 2006. 103(23). P 8577-8582.
6. Zhukov L. Network communities [Электронный ресурс]. - режим доступа: http://www.leonidzhukov.net/hse/2014/socialnetworks/lectures/lecture7.pdf.
7. Целых А.А., Целых А.Н., Матвеев Д.А. Методы и средства визуализации массивов научно-технических показателей в виде графов // Современные проблемы науки и образования. 2013. №3. URL: http://www.science- education.ru/ru/article/view?id=9421(дата обращения: 14.04.2016).
8. Learn how to use Gephi [Электронный ресурс]. - режим доступа: https://gephi.org/users.
9. Левитин А.В. Алгоритмы. Введение в разработку и анализ / М.: Вильямс, 2006. 576 с.
10. Буреева Н.Н. Многомерный статистический анализ с использованием ППП “STATISTICA” / Нижний Новгород, 2007, 112 с.
11. Status codes in HTTP [Электронный ресурс]. - режим доступа: https://www.w3.org/Protocols/HTTP/HTRESP.html.
12. HTTP 300 Status Codes | AT&T Developer [Электронный ресурс]. - режим доступа: http://developer.att.com/application-resource- optimizer/docs/best-practices/http-300-status-codes.
13. HTTP/1.1: Header field definitions [Электронный ресурс]. - режим доступа: https://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html.
14. Network Working Group. RFC 3986 — Uniform Resource Identifier (URI): Generic Syntax.
15. URL normalization - Wikipedia, the free encyclopedia [Электронный ресурс]. - режим доступа: https://en.wikipedia.org/wiki/URL_normalization.

Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ