Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Теоретическая часть 7
1.1 Основные понятия и определения 7
1.2 Анализ структуры веб-ссылок 8
1.3 Построение математической модели 9
1.4 Уточнение математической модели 13
Глава 2. Построение веб-графа веб-пространства коммерческой организации .. 17
2.1 Инструменты 17
2.2 Выделение сообщества 18
2.3 Сбор данных 19
2.4 Построение веб-графа 21
Глава 3. Решение оптимизационной задачи 24
3.1 Алгоритм решения 24
3.2 Построение исходной матрицы 25
3.3 Реализация алгоритма 25
3.4 Полученные результаты 27
Выводы 28
Заключение 29
Список литературы 30
С момента своего создания Интернет произвел революцию в повседневной жизни, предоставляя пользователям доступ к огромному количеству информации. Сегодня в Вебе существует множество веб-сайтов, взаимодействие между которыми осуществляется при помощи гиперссылок. Несмотря на огромное количество, веб-сайты образуют вполне упорядоченную систему. Например, наличие гиперссылок может приводить к увеличению количества переходов между сайтами, а значит и к росту числа посетителей.
Подобным образом некоторые веб-сайты могут искусственно увеличивать свою популярность путем обмена ссылками. Одним из примеров могут являться так называемые “малые Интернет-сообщества” — множество веб-сайтов крупных предприятий, университетов, научных центров и т. д., связанных при помощи гиперссылок. Данные сообщества содержат небольшое количество участников, что объясняет их название. Участники таких сообществ могут согласовывать свои действия для увеличения ссылочной популярности, и, как следствие, рейтинга в выдаче поисковых систем.
Исследованиями сети Интернет занимается вебометрика — одно из научных направлений, в рамках которого, в частности, изучается взаимодействие веб-сайтов, их структура, а также исследуются их количественные характеристики. Данные исследования помогают глубже понять связи между различными сообществами, а также выявить закономерности в расставлении ссылок между веб-сайтами. Например, они помогают определить, насколько организация следит за своими веб-сайтами и тенденциями развития сети Интернет.
Постановка задачи
Цель работы заключается в исследовании веб-пространства коммерческой организации и выявления закономерностей распределения внешних гиперссылок.
Для достижения выше поставленной цели необходимо было решить следующие задачи:
• сбор внешних гиперссылок выделенного Интернет-сообщества и создание базы данных внешних гиперссылок
• построение и анализ веб-графа
• исследование веб-ссылок выделенного Интернет-сообщества для
выявления признаков согласованного поведения
Вебометрические исследования играют большое значение из-за возрастающей зависимости организаций от сети Интернет. Эти исследования позволяют определить, насколько организация следит за тенденцией развития своих сайтов.
Поисковые системы играют большую роль для различных учреждений, так как от места расположения ссылок на странице поисковой выдачи зависит количество посетителей их сайтов, а значит и популярность ресурса. Так как ссылочная популярность играет не последнюю роль в механизмах ранжирования, существует возможность ее искусственного увеличения и, как следствие, повышения сайта в рейтинге поисковых систем. Поэтому, существует потенциальная возможность образования малых Интернет-сообществ, которые согласовывают свои действия для увеличения ссылочной популярности путем публикации ссылок на веб-сайты, принадлежащие сообществу. Поэтому важно уметь определять согласованные действия веб-сайтов, для предотвращения неправомерной манипуляции рейтинга.
Интернет — динамическая система. В данном работе рассматривался “снимок” на определенный момент времени, поэтому, в качестве продолжения исследований возможно периодически собирать заново данные из Интернета, чтобы анализировать, как данные в вебе и экономические показатели компаний коррелируют с течением времени.