📄Работа №131610

Тема: Построение характеристического вектора клик веб-графа и его применение для анализа структуры сайтов

📝

Тип работы Бакалаврская работа

📚

Предмет программирование

📄

Объем: 30 листов

📅

Год: 2016

👁️

4850 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Постановка задачи 6
Глава 1. Характеристический вектор клик веб-графа 7
Глава 2. Программа сканирования сайта для построения его веб-графа 9
Глава 3. Программа поиска клик 11
Глава 4. Эксперименты с сайтами СПбГУ 16
4.1. Сканирование сайтов 16
4.2. Построение векторов клик веб-графа 19
Глава 5. Кластерный анализ 23
5.1. Общие сведения 23
5.2. Кластеризация результатов работы программы построения векторов клик веб-графа 26
Выводы 28
Заключение 29
Список литературы 30

📖 Введение

Веб-граф[1] является достаточно распространенной моделью веб-пространства. Такая модель используется на протяжении последних 15-20 лет для описания веба и вебометрических исследований. Веб-граф очень удобен для отслеживания связей между различными веб-ресурсами.
Для его построения необходим список веб-сайтов, которые будут выступать в качестве множества вершин, и список гиперссылок между этими сайтами, которые будут составлять множество дуг веб-графа. Такой граф будет иметь ребра-петли, и он будет ориентированным.
Крупное исследование веба с применением веб-графа в 1999 году произвел Андрей Бредер вместе с коллегами[2]. Они создали математическую модель веб-пространства, и назвали ее “Bow tie” (см.рис.1).
Рис.1. Модель веб-пространства “Bow tie”
Исследовав более 200млн. страниц ученые построили веб-граф и, проанализировав его, пришли к выводу, что все страницы можно разделить на 5 множеств:
1. Центральное ядро - тесно связанные страницы, то есть с любой страницы этого множества можно перейти на любую другую страницу этого множества по конечному числу гиперссылок.
2. “Отправные” web-страницы - на этих страницах содержатся гиперссылки, ведущие в центральное ядро, но из ядра к ним попасть невозможно.
3. “Конечные” web-страницы - страницы, обратные к отправным, к ним можно попасть из ядра, но в ядро с них попасть невозможно.
4. “Отростки”, “перешейки” - полностью изолированные от центрального ядра страницы.
5. “Острова” (или hidden web) - страницы, на которые не существует гиперссылок. Попасть на них можно только зная их адрес.
Однако, в современном мире количество веб-ресурсов становится все больше и больше, количество сайтов стремительно увеличивается, соответственно растет и количество гиперссылок между ними. Так же растет количество страниц, входящих в множество “островов”. Поэтому исследование веба в целом было выполнимо только на начальных этапах его развития, в наше же время исследования представляются возможными лишь на сравнительно небольших фрагментах веб-пространства.
В качестве таких фрагментов можно рассматривать веб-сайты[21. Эти фрагменты так же хорошо описываются веб-графом и, как и само веб-пространство, имеют довольно сложную структуру. Например, на сайте Оксфордского университета Google проиндексировал около 8 миллионов страниц, а на сайте Г арвардского университета около 6 миллионов страниц.
В отличие от веб-графа всего веба, веб-граф сайта имеет определенную точку входа - главную страницу сайта, ее можно идентифицировать по доменному имени. Эту страницу так же называют индексной страницей из-за того, что поисковые системы начинают индексирование веб-сайта именно с нее.
Это значит, что у веб-графа сайта будет явная начальная вершина. Соответственно в таком графе можно выделить уровневую структуру. У главной страницы сайта уровень 0, у каждой страницы, ссылка на которую найдена на главной странице, уровень 1 и так далее. То есть уровень страницы определяется минимальным количеством гиперссылок от главной страницы до искомой.
Кроме того, веб-граф сайта будет являться как минимум слабо- связным[4]. В контексте ориентированного графа это означает, что при замене ориентированных ребер (дуг) на неориентированные, будет существовать как минимум один путь из любой вершины в любую другу вершину графа.
Веб-графы некоторых сайтов (обычно это сайты с небольшим количеством страниц) могут быть не только слабо-связными, а еще и сильносвязными. То есть из любой вершины такого графа существует хотя бы один ориентированный путь в любую другую вершину.

✅ Заключение

Выпускная квалификационная работа была посвящена вопросам сбора и анализа страниц и гиперссылок сайтов научных подразделений Санкт-Петербургского государственного университета, с целью подтверждения или опровержения гипотезы о схожести характеристических векторов у схожих организаций.
Все задачи, поставленные в ходе исследования, были решены.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Райгородский А.М. Модели случайных графов. // Труды МФТИ. 2010. Том 2, № 4.
2. Печников А.А., Чернобровкин Д.И. Об исследованиях веб-графа сайта // Материалы конференции «Управление в технических, эргатических, организационных и сетевых системах». - СПб.: «Концерн «ЦНИИ «Электроприбор», 2012, С. 1069-1072.
3. Харари Ф. Теория графов. — М.: Мир, 1973.
4. Broder Andrei, Ravi Kumar, Farzin Maghoul, Prabhakar Raghavan, Sridhar Rajagopalan, Raymie Stata, Andrew Tomkins, Janet Wiener (2000). "Graph structure in the web". Proceedings of the 9th World Wide Web Conference.
5. Чернобровкин Д.И. Об исследованиях веб-графа сайта c использованием имитационной модели.
6. Печников А.А., Чернобровкин Д.И. Адаптивный краулер для поиска и сбора внешних гиперссылок. // Журнал “Управление большими системами: сборник трудов”. Выпуск №36/2012.
7. Filippo Menczer, Gautam Pant, Padmini Srinivasan. Topical web crawlers: evaluating adaptive algorithms.
8. Mike Thelwall. Big data and social web research methods.
9. Клика. https://ru.wikipedia.org/wiki/Клика_(теория_графов) (Дата обращения 05.05.2016).
10. Network Working Group. RFC 3986 — Uniform Resource Identifier (URI): Generic Syntax. — WWW, 2005.
11. Кластерный анализ. https://ru.wikipedia.org/wiki/Кластерный_анализ (Дата обращения 05.05.2016).
12. www.basegroup.ru. Модуль M.123 Алгоритм кластеризации k-means.

🖼 Скриншоты

Содержание с началом введения

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (209711)

Статьи

»» Все статьи

Вход в личный кабинет