Тип работы:
Предмет:
Язык работы:


Исследование задачи классификации веб-сайтов с учётом свойств зашумлённости и политематичности

Работа №125509

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы53
Год сдачи2018
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
19
Не подходит работа?

Узнай цену на написание


Содержание 2
Введение 3
Постановка задачи 6
Обзор литературы 8
Глава 1. Исследование задачи 11
1.1. Выбор характеристик 14
1.2. Модель классификатора 17
Глава 2. Алгоритм 19
2.1. Извлечение данных о веб-сайтах 19
2.2. Предобработка текстовых данных 20
2.3. Обучение классификатора 20
Глава 3. Разработка программы 21
3.1 Инструменты разработки 21
3.2 Структура программы 22
3.3 Описание практической реализации алгоритма 26
Глава 4. Эксперименты и выводы 29
Заключение 33
Список литературы 34
Приложение 1. Исходный код 36

В последние годы многократно возрос размер сети Интернет и, соответственно, количество информации в ней. В связи с этим востребованными являются задачи по автоматической обработке и классификации этой информации в общем и категоризации (структурировании схожих объектов по темам, формировании обобщающих множеств) веб-сайтов - в частности.
Одной из недостаточно изученных задач в этой сфере является классификация с учётом “зашумлённости” данных. Под “зашумлённостью” в данном случае будем полагать наличие веб-страниц сайта или их частей, которые слабо относятся к категории веб-сайта или не относятся к ней совсем (например, рекламные объявления (см. рис. 1) или разделы форума со свободной тематикой).
Рисунок 1. Пример рекламного объявления на веб-сайте
Параллельно с этим, актуальна проблема выделения академического веб-пространства из общего множества сайтов сети Интернет. Например, уже сейчас на оценку эффективности научных организаций влияет то, как она представлена в Вебе [1].
Для начала введём обозначения, которые будем использовать далее:
• веб-сайт - объединённая под одним адресом (доменным именем или IP- адресом) совокупность документов частного лица или организации;
• веб-страница - самостоятельная часть веб-сайта; документ, снабженный уникальным адресом (URL);
• hostname (имя хоста, доменное имя) - символическое имя, назначенное сетевому устройству, которое может быть использовано для организации доступа к этому устройству различными способами (например, для URL https://google.ru/ доменным именем будет google.ru);
• удалённость веб-страниц - характеристика, показывающая минимальное количество переходов со страницы А на страницу Б по ссылкам из тела веб-страниц;
• редирект - автоматическое перенаправление запроса с одного веб-адреса на другой;
• PageRank - числовая величина, характеризующая «важность», «авторитетность» веб-страницы;
• scraping (скрейпинг) - процесс извлечения данных из веб-страниц;
• слово в тексте - набор последовательно следующих символов определённого алфавита в тексте, отделенный от остальных символами пробела, табуляции, знаками препинания или иными специальными символами (например, в строке “3000 л.с. (эквивалентен паровозу УУ)” словами будут считаться “л”, “с”, ’’эквивалентен”, ’’паровозу”, ”УУ”);
• токенизация - разбиение электронного текста на отдельно значимые единицы (токены) для их последующей компьютерной обработки.
Работа организована следующим образом: во введении описаны предметная область, актуальность проблемы. Затем следует постановка задачи, а также основные этапы её решения. После этого приводится обзор литературы по данной проблеме и рассматриваются предлагаемые варианты её решения. В первой главе производится исследование поставленной задачи и описываются различные методы и алгоритмы, предлагаемые для использования в работе, а также приводятся особенности их использования. Вторая глава посвящена алгоритму решения поставленной задачи. В третьей главе описана программная реализация классификатора и основные инструменты, применявшиеся при его реализации. В четвёртой главе описываются проведённые эксперименты и анализируются полученные результатов. В заключении подводятся итоги и предлагаются дальнейшие шаги по развитию данной работы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате данной работы исследована задача классификации веб­сайтов с учётом зашумлённости и политематичности и реализовано программное решение для разбиения множества веб-сайтов на несколько категорий, удовлетворяющее поставленным условиям. В работе описаны существующие подходы к решению задачи и выбранные методы вместе с их преимуществами и недостатками. Предлагается своё решение данной задачи и подробно описывается алгоритм с его практической реализацией. В конце представлены результаты работы программы на специально подобранном наборе данных. Полученное решение показало свою работоспособность и, в целом, обладает высокой точностью на выбранном датасете. Выявленные недостатки критически оценены, что позволяет определить цели дальнейшего развития данной работы.
В дальнейшем планируется использование большего набора характеристик url адресов и текста для повышения точности классификации, а также модернизировать работу веб-краулера, чтобы уменьшить число ресурсов, ограничивающих ему доступ для загрузки данных. Для удобства взаимодействия пользователя с алгоритмом предполагается представление реализации в виде веб-сервиса с возможностью вывода результатов в различных форматах данных. Также планируется улучшить методы работы алгоритма с памятью вычислительного устройства для повышения производительности на больших объёмах данных.


1. Хомякова Д. Покажи мне свой сайт, и я скажу, кто ты [Электронный ресурс] // Наука в Сибири. http://www.sbras.info/articles/sciencestruct/pokazhi-mne-svoi-sait-i-ya-skazhu- kto-ty
2. Вузы в России [Электронный ресурс] // Федеральный портал «Российское образование». http://www.edu.ru/vuz/
3. Подведомственные организации [Электронный ресурс] // Сайт федерального агенства научных организаций. https://fano.gov.ru/ru/about/sub organizations/index.php
4. Rukavitsyn A.N., Kupriyanov M.S., Shorov A.V., Petukhov I.V. Investigation of Website Classification Methods Based on Data Mining Techniques // Proceedings of the 19th International conference on soft computing and measurements (SCM 2016). - 2016. - P. 333-336.
5. Маслов М., Пяллинг А., Трифонов С. Автоматическая классификация веб­сайтов // Труды РОМИП, 2007. 6 c.
6. Ji-bin Zh., Zhi-ming X., Kun-li X. и Qi-shu P. A Web Site Classification Approach Based On Its Topological Structure // International Journal on Asian Language Processing, 2010. Vol. 20, No 2. P. 75-86.
7. Page L., Brin S., Motwani R., and Winograd T. The pagerank citation ranking: Bringing order to the web // Stanford InfoLab, 1999.
8. Adsadawut Chanakitkarnchok, Kulit Na Nakorn, Kultida Rojviboolchai. Autonomous website categorization with pre-defined dictionary // 13th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON), 2016.
9. EasyList. https://easylist.to/
10. Qi X., Davison B. Web page classification: Features and algorithms // ACM Computing Surveys, 2009. Vol. 41, No 2. P 12:1-12:31.
11. Dou Sh., Zheng Ch., Qiang Y., Hua-Jun Z., Benyu Zh., Yuchang L., Wei-Ying M. Web-page Classification through Summarization // ACM SIGIR, 2004.
12. Печников А.А., Д.И. Адаптивный краулер для поиска и сбора внешних гиперссылок // Управление большими системами. Выпуск 36. М.: ИПУ РАН. - 2012. - С.301-315.
13. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts, 2015. P. 320-332.
14. Левитин А.В. Алгоритмы. Введение в разработку и анализ. М.: Вильямс, 2006. 576 с.
15. EasyList Forum. https://forums.lanik.us/viewforum.php?f=102
...


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ