Тип работы:
Предмет:
Язык работы:


Разработка программ для исследования характеристик веб-пространства крупной организации

Работа №125789

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы29
Год сдачи2017
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
31
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Глава 1. Теоретическое описание работы 5
1.1. Краулер 5
1.1.1. Описание краулера 5
1.1.2. Блок-схема программы-краулера 6
1.2. Веб-граф 7
1.3. PageRank 7
1.4. Компонента сильной связности 8
1.5. Клика в орграфе 9
Глава 2. Результаты работы 11
2.1. Практическая реализация 11
2.1.1. Инструменты 11
2.1.2. Работа краулера 11
2.1.3. Построение веб-графа 15
2.1.4. Характеристики веб-графа 17
2.2. Исследование 20
2.3. Тестирование 23
Выводы 24
Заключение 24
Список литературы 24
Приложение 25

В настоящее время задача исследования веб-пространства организаций является актуальной в связи со стремительным развитием сети интернет и ресурсов, представленных в ней. Эти исследования помогают определить, насколько организация следит за тенденцией развития своих сайтов и предоставляет результаты своей деятельности.
Веб-сайт - совокупность html-страниц и веб-документов, связанных внутренними гиперссылками [6] и обладающих единством содержания, идентифицируемая в Вебе по уникальному доменному имени.
Определим внутренние гиперссылки, как гиперссылки, которые ссылаются на html-страницы заданного веб-пространства, при этом URL-источник является также html-страницей из этого веб-пространства.
Веб-пространство организации - это множество, состоящее из веб­сайтов организации, которые связаны между собой гиперссылками. У веб­пространства всегда можно выделить его “головной сайт”, официальный сайт организации.
В данной работе будут рассмотрены веб-пространства нескольких университетов России (к примеру, Санкт-Петербургского государственного университета, Московского государственного университета), нескольких научных институтов (к примеру, Российской академии наук, Института вычислительных технологий СО РАН) и нескольких крупных организаций России (к примеру, ПАО “Газпром”, Роснефть).
Уровень веб-страницы определим следующим образом: начальная страница, передаваемая краулеру, определяемая по уникальному доменному имени, имеет уровень 0. Уровень любой другой страницы - это минимальное количество внутренних гиперссылок, ведущих от начальной страницы к данной.
Для описания веб-пространства можно использовать веб-граф. В общем случае веб-граф - это ориентированный граф, вершинами которого являются html-страницы, ребра - гиперссылки связывающие данные вершины. В данной работе веб-граф будет представлен в виде списочной структуры, состоящей из пар сайтов (сайт1, сайт2) организации и количества дуг между ними (количество всех гиперссылок ссылающихся с сайта1 на сайт2).
Для того, чтобы построить веб-граф сайта, необходимо получить сведения о его структуре: html-страницы и гиперссылки связывающие их. В частности в данной работе необходимо получить URL-адреса веб-сайтов веб-пространства и внутренние гиперссылки между ними. Для сбора данной информации необходима программа-краулер. Краулер или же поисковой робот - программа, предназначенная для перебора страниц сети Интернет с целью сбора и/или занесения определённой информации в некую базу знаний. С общими принципами разработки краулера можно ознакомиться в работе [4].

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Задачу, рассмотренную в данной работе, в дальнейшем следует исследовать более детально. К примеру, для улучшения показателей можно воспользоваться методами кластерного анализа. Кластерный анализ - это метод классификационного анализа, основные функции которого заключаются в разбиении множества исследуемых объектов на однородные группы или кластеры [7]. Задача кластеризации относится к статистической обработке.


1. Status codes in HTTP [Электронный ресурс]. URL: https: //www. w3. org/Protocols/rfc2616/rfc2616-sec10. html.
2. Bron C., Kerbosh J. (1973), Algorithm 457 - Finding all cliques of an udirected graph, Comm. Of ACM, 16, p. 575 - 577.
3. Роберт Седжвик. Алгоритмы на графах = Graph algorithms. - 3-е изд. - Россия, Санкт-Петербург: «ДиаСофтЮП», 2002. - C 496.
4. Pant G., Srinivasan P., Menczer F. Crawling the Web // In Web Dynamics / M. Levene and A. Poulovassilis, eds. Springer, 2004. P. 153-178.
5. Всё о Google PageRank [Электронный ресурс]. URL: http://designformasters.info/posts/google-page-rank/.
6. Гиперссылка [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/Гиперссылка.
7. Мандель И. Д. Кластерный анализ. - М.: Финансы и статистика, 1988. - 176 с.
8. Jsoup Java HTML Parser 1.10.2 API [Электронный ресурс]. URL: https://jsoup.org/apidocs/org/j soup/nodes/Document.html.
9. Intellij IDEA the Java IDE - JetBrains [Электронный ресурс]. URL: https ://www.j etbrains. com/idea/.
10. JGraph mxgraph [Электронный ресурс]. URL: https: //github .com/j graph/mxgraph.
11. Javenue.csv - Java csv reader [Электронный ресурс]. URL: http: //www.j avenue. info/post/7 8.
12. HTTP - HyperText Transfer Protocol [Электронный ресурс]. URL: https: //ru. wikipedia. org/wiki/HTTP.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ