Тип работы:
Предмет:
Язык работы:


Классификация документов посредством кластеризации графа ссылок между ними

Работа №131836

Тип работы

Бакалаврская работа

Предмет

математика и информатика

Объем работы25
Год сдачи2016
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
31
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Обзор традиционных алгоритмов текстовой классификации 4
1.1. Подготовка данных 4
1.2. Алгоритм k-means 6
1.3. Алгоритм k ближайших соседей 8
1.4. Метод опорных векторов (SVM) 9
1.5. Латентное размещение Дирихле (LDA) 11
Глава 2. Частичное обучение на графе 14
2.1. Постановка задачи частичного обучения 14
2.2. Обучение на графе 14
Глава 3. Проведение эксперимента 18
Выводы 22
Заключение 23
Список литературы 24

С каждым годом все больше устройств получают доступ к сети Интернет, а значит, все больше пользователей делится друг с другом информацией. Данные становятся менее структурированными, а потребность в их анализе растёт. Исследования в этой области связаны на сегодняшний день с информационным поиском. Одной из актуальных задач информационного поиска является классификации документов.
Существует множество способов находить скрытые структуры в данных, одним из них является анализ графа ссылок между документами. Во многих случаях классификация коллекции документов может быть сведена к исследованию графа, порожденного ею.
Мы рассмотрим случай классификации статей на сайте Википедия, используем для решения этой задачи анализ графа ссылок, а также сравним, полученные результаты с текстовой классификацией.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Были рассмотрены различные традиционные методы классификации применительно к задаче классификации документов. Также был рассмотрен метод частичного обучения на графе. Проведен эксперимент с использованием выборки статей с сайта Википедия. В ходе эксперимента проведено сравнение качества работы алгоритмов обоих типов.


1. Маннинг, К., Рагхаван, П., Шютце, Х. Введение в информационный поиск. М.: Изд. дом «Вильямс», 2011. 135 с.
2. MacQueen, J. Some methods for classification and analysis of multivariate observations // Proc. of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statistics, University of California Press, Berkeley, Calif., 1967. С. 281-297.
3. Arthur, D., Vassilvitskii S. How slow is the k-Means Method? // Proc. Symposium on Computational Geometry, С. 144-153.
4. Вапник, В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
5. Joachims, T. Text Categorization with Support Vector Machines: Learning with many relevant features. // Machine Learning: ECML-98: 10th European Conference on Machine Learning Chemnitz, Germany, April 21--23, 1998 Proceedings.
6. Hofmann, T. Probabilistic Latent Semantic Analysis // Proc. 15th Conf. Uncertainty in Artificial Intelligence, pp. 289-296, 1999.
7. Blei, D., Ng, A., Jordan, M., Lafferty, J. Latent dirichlet allocation // Journal of Machine Learning Research, Vol. 3, 2003
8. Heinrich G., Parameter estimation for text analysis // Technical Report, 2004.
9. Avrachenkov, K., Goncalves, P., Mishenin, A., Sokol, M. Generalized Optimization Framework for Graph-based Semi-supervised Learning // Computing Research Repository vol. abs/1110.4278, 2011
10. Avrachenkov, K., Dobrynin, V., Nemirovsky, D., Son Kim Pham, Smirnova, E. PageRank Based Clustering of Hypertext Document Collections // Proceedings of the 31-st annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR, 2008, С. 873-874.
11. Dietz, L., Bickel, S., Scheffer, T., Unsupervised Prediction of Citation influences // Proceedings of the 24-st International conference on machine learning, 2007.
12. Zhang, X., LeCun, Y., Text understanding from scratch. // Computing research repository vol. abs/1502.01710.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ