Тип работы:
Предмет:
Язык работы:


Вебометрические методы в исследовании характеристик веб-пространств крупных организаций

Работа №129719

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы32
Год сдачи2019
Стоимость4910 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
11
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Теоретическая часть 7
1.1 Основные понятия и определения 7
1.2 Анализ структуры веб-ссылок 8
1.3 Построение математической модели 9
1.4 Уточнение математической модели 13
Глава 2. Построение веб-графа веб-пространства коммерческой организации .. 17
2.1 Инструменты 17
2.2 Выделение сообщества 18
2.3 Сбор данных 19
2.4 Построение веб-графа 21
Глава 3. Решение оптимизационной задачи 24
3.1 Алгоритм решения 24
3.2 Построение исходной матрицы 25
3.3 Реализация алгоритма 25
3.4 Полученные результаты 27
Выводы 28
Заключение 29
Список литературы 30


С момента своего создания Интернет произвел революцию в повседневной жизни, предоставляя пользователям доступ к огромному количеству информации. Сегодня в Вебе существует множество веб-сайтов, взаимодействие между которыми осуществляется при помощи гиперссылок. Несмотря на огромное количество, веб-сайты образуют вполне упорядоченную систему. Например, наличие гиперссылок может приводить к увеличению количества переходов между сайтами, а значит и к росту числа посетителей.
Подобным образом некоторые веб-сайты могут искусственно увеличивать свою популярность путем обмена ссылками. Одним из примеров могут являться так называемые “малые Интернет-сообщества” — множество веб-сайтов крупных предприятий, университетов, научных центров и т. д., связанных при помощи гиперссылок. Данные сообщества содержат небольшое количество участников, что объясняет их название. Участники таких сообществ могут согласовывать свои действия для увеличения ссылочной популярности, и, как следствие, рейтинга в выдаче поисковых систем.
Исследованиями сети Интернет занимается вебометрика — одно из научных направлений, в рамках которого, в частности, изучается взаимодействие веб-сайтов, их структура, а также исследуются их количественные характеристики. Данные исследования помогают глубже понять связи между различными сообществами, а также выявить закономерности в расставлении ссылок между веб-сайтами. Например, они помогают определить, насколько организация следит за своими веб-сайтами и тенденциями развития сети Интернет.
Постановка задачи
Цель работы заключается в исследовании веб-пространства коммерческой организации и выявления закономерностей распределения внешних гиперссылок.
Для достижения выше поставленной цели необходимо было решить следующие задачи:
• сбор внешних гиперссылок выделенного Интернет-сообщества и создание базы данных внешних гиперссылок
• построение и анализ веб-графа
• исследование веб-ссылок выделенного Интернет-сообщества для
выявления признаков согласованного поведения


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Вебометрические исследования играют большое значение из-за возрастающей зависимости организаций от сети Интернет. Эти исследования позволяют определить, насколько организация следит за тенденцией развития своих сайтов.
Поисковые системы играют большую роль для различных учреждений, так как от места расположения ссылок на странице поисковой выдачи зависит количество посетителей их сайтов, а значит и популярность ресурса. Так как ссылочная популярность играет не последнюю роль в механизмах ранжирования, существует возможность ее искусственного увеличения и, как следствие, повышения сайта в рейтинге поисковых систем. Поэтому, существует потенциальная возможность образования малых Интернет-сообществ, которые согласовывают свои действия для увеличения ссылочной популярности путем публикации ссылок на веб-сайты, принадлежащие сообществу. Поэтому важно уметь определять согласованные действия веб-сайтов, для предотвращения неправомерной манипуляции рейтинга.
Интернет — динамическая система. В данном работе рассматривался “снимок” на определенный момент времени, поэтому, в качестве продолжения исследований возможно периодически собирать заново данные из Интернета, чтобы анализировать, как данные в вебе и экономические показатели компаний коррелируют с течением времени.



1. Benoit G. Data mining // Annual Review of Information Science and Technology, 2002. Vol.36, No 1. P. 265-310.
2. Almind T., Ingwersen P. Informetric analyses on the World Wide Web: Methodological approaches to «webometrics» // Journal of Documentation, 1997. Vol. 53, No 4. P. 404-426.
3. Bjorneborn L. Small-world link structures across an academic web space: a library and information science approach. // Royal School of Library and Information Science, 2004. 399 p.
4. Thelwall M. Introduction to webometrics: Quantitative web research for the social sciences // Morgan & Claypool Publishers, 2009. 116 p.
5. Thelwall M. Webometrics and Social Web Research Methods // University of Wolverhampton, 2013. 142 p.
6. Esteban Romero-Frias Googling Companies - a Webometric Approach to Business Studies // Electronic Journal of Business Research Methods, 2009. Vol.7, No 1. P. 93-106.
7. Kosala R., Blockeel H. Web Mining Research: A Survey // ACM SIGKDD Explorations Newsletter, 2001. Vol. 2, No 1. P. 1-15.
8. Srivastava J., Cooley R., Deshpande M., Tan P.-N. Web Usage Mining: Discovery and
Applications of Usage Patterns from Web Data // SIGKDD Explorations, 2000. Vol. 1, No 2. P. 12-23.
9. Kumar R., Singh A.K. Web Structure Mining: Exploring Hyperlinks and Algorithms for Information Retrieval // American Journal of Applied Sciences, 2010. Vol. 7, No 6. P. 840-845.
10. Liu, B. Web Data Mining // Springer. 2007. 433 p.
11. M.G. da Gomes Jr., Gong Z. Web Structure Mining: An Introduction // Proceedings of the IEEE International Conference on Information Acquisition, 2005. P. 590-595.
12. Bar-Ilan J. Data collection methods on the Web for infometric purposes: A review and analysis // Scientometrics. 2001. Vol. 50, No 1. Р. 7-32.
13. Google advanced search.
https://www.google.com/advanced search
14. Yandex advanced search.
https://yandex.ru/support/search/how-to-search/advanced-search.html
15. Yahoo advanced search.
https://search.yahoo.com/search/options?fr=fp-top&p=&guccounter=1
16. Bing advanced search.
http://help.bing.microsoft.com/#apex/18/en-us/10002/0
17. DuckDuckGo advanced search.
https: //help. duckduckgo .com/duckduckgo -help-pages/results/syntax/
18. Печников А.А., Сотенко Е.М. Программы-краулеры для cбора
данных о nредcтавительcких cайтах заданной предметной области — аналитичеcкий разбор // Современные наукоемкие технологии, 2017. № 2. С. 58-62.
19. Borodin A., Roberts G.O., Rosental J.S., Tsaparas P. Link Analysis Ranking: Algorithms, Theory, and Experiments // ACM Transactions on Internet Technology, 2005. Vol. 5, No 1. P. 231-297.
20. Du Y., Shi Y., Zhao X. Using spam farm to boost PageRank // Proc of the 3rd International Workshop on Adversarial Information Retrieval on the Web, 2007. P. 29-36.
21. Трофименко Е.А. Оптимизация ра счета ссылочной популярности и учета ее при ранжировании результатов поиска // Интернет-математика 2005. Автоматическая обработка веб-данных, 2005. С. 272-282.
22. Печников А.А. Математические модели размещения ссылок в локализованной системе Интернет-ресурсов // Системы управления и информационные технологии, 2007. № 28. С. 92-96
23. Pant G., Srinivason P., Меис/ег F. Crawling the Web // Web Dynamrcs, 2004. P. 153-177.
24. Kleinberg J.M., Kumar R., Raghavan P., Rajagopalan S., Tomkins A.S. The Web as a Graph: Measurements, Models, and Methods // Confere^e on Combinatorrcs and Computing, 1999. P. 1-18.
25. Печников А.А. Задача рационального размещения ссылок в регламентируемой локализованной системе Интернет-ресурсов // Труды Института прикладных математических исследований КарНЦ РАН, 2006. № 7. С. 176-182.
26. Печников А.А. Математические модели размещения ссылок в локализованной системе интернет-ресурсов // Системы управления и информационные технологии, 2007. № 28. С. 92-96.
27. GitHub - yassergArawler4j: Open Source Web Crawler for Java. https://github.com/yasserg/crawler4j
28. PostgreSQL.https://www.postgresql.org/
29. Gephi.https://gephi.org/
30. Индекс качества сайта.https://yandex.ru/support/webmaster/site-quality-index.html
31. Репозиторий разработанного проекта. https://github. ^m/S^sel/Crawler


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ