Введение 3
Глава 1. Обзор традиционных алгоритмов текстовой классификации 4
1.1. Подготовка данных 4
1.2. Алгоритм k-means 6
1.3. Алгоритм k ближайших соседей 8
1.4. Метод опорных векторов (SVM) 9
1.5. Латентное размещение Дирихле (LDA) 11
Глава 2. Частичное обучение на графе 14
2.1. Постановка задачи частичного обучения 14
2.2. Обучение на графе 14
Глава 3. Проведение эксперимента 18
Выводы 22
Заключение 23
Список литературы 24
С каждым годом все больше устройств получают доступ к сети Интернет, а значит, все больше пользователей делится друг с другом информацией. Данные становятся менее структурированными, а потребность в их анализе растёт. Исследования в этой области связаны на сегодняшний день с информационным поиском. Одной из актуальных задач информационного поиска является классификации документов.
Существует множество способов находить скрытые структуры в данных, одним из них является анализ графа ссылок между документами. Во многих случаях классификация коллекции документов может быть сведена к исследованию графа, порожденного ею.
Мы рассмотрим случай классификации статей на сайте Википедия, используем для решения этой задачи анализ графа ссылок, а также сравним, полученные результаты с текстовой классификацией.
Были рассмотрены различные традиционные методы классификации применительно к задаче классификации документов. Также был рассмотрен метод частичного обучения на графе. Проведен эксперимент с использованием выборки статей с сайта Википедия. В ходе эксперимента проведено сравнение качества работы алгоритмов обоих типов.