📄Работа №67540

Тема: Классификация документов посредством кластеризации графа ссылок между ними

📝
Тип работы Дипломные работы, ВКР
📚
Предмет Информатика и вычислительная техника
📄
Объем: 25 листов
📅
Год: 2016
👁️
Просмотров: 72
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
Глава 1. Обзор традиционных алгоритмов текстовой классификации ... 4
1.1. Подготовка данных 4
1.2. Алгоритм k-means 6
1.3. Алгоритм k ближайших соседей 8
1.4. Метод опорных векторов (SVM) 9
1.5. Латентное размещение Дирихле (LDA) 11
Глава 2. Частичное обучение на графе 14
2.1. Постановка задачи частичного обучения 14
2.2. Обучение на графе 14
Глава 3. Проведение эксперимента 18
Выводы 22
Заключение 23
Список литературы

📖 Введение

С каждым годом все больше устройств получают доступ к сети Интернет, а значит, все больше пользователей делится друг с другом информацией. Данные становятся менее структурированными, а потребность в их анализе растёт. Исследования в этой области связаны на сегодняшний день с информационным поиском. Одной из актуальных задач информационного поиска является классификации документов.
Существует множество способов находить скрытые структуры в данных, одним из них является анализ графа ссылок между документами. Во многих случаях классификация коллекции документов может быть сведена к исследованию графа, порожденного ею.
Мы рассмотрим случай классификации статей на сайте Википедия, используем для решения этой задачи анализ графа ссылок, а также сравним, полученные результаты с текстовой классификацией.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Были рассмотрены различные традиционные методы классификации применительно к задаче классификации документов. Также был рассмотрен метод частичного обучения на графе. Проведен эксперимент с использованием выборки статей с сайта Википедия. В ходе эксперимента проведено сравнение качества работы алгоритмов обоих типов.
Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Маннинг, К., Рагхаван, П., Шютце, Х. Введение в информационный поиск. М.: Изд. дом «Вильямс», 2011. 135 с.
2. MacQueen, J. Some methods for classification and analysis of multivariate observations // Proc. of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statistics, University of California Press, Berkeley, Calif., 1967. С. 281-297.
3. Arthur, D., Vassilvitskii S. How slow is the k-Means Method? // Proc. Symposium on Computational Geometry, С. 144-153.
4. Вапник, В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
5. Joachims, T. Text Categorization with Support Vector Machines: Learning with many relevant features. // Machine Learning: ECML-98: 10th European Conference on Machine Learning Chemnitz, Germany, April 21--23, 1998 Proceedings.
6. Hofmann, T. Probabilistic Latent Semantic Analysis // Proc. 15th Conf. Uncertainty in Artificial Intelligence, pp. 289-296, 1999.
7. Blei, D., Ng, A., Jordan, M., Lafferty, J. Latent dirichlet allocation // Journal of Machine Learning Research, Vol. 3, 2003
8. Heinrich G., Parameter estimation for text analysis // Technical Report, 2004.
9. Avrachenkov, K., Goncalves, P., Mishenin, A., Sokol, M. Generalized Optimization Framework for Graph-based Semi-supervised Learning // Computing Research Repository vol. abs/1110.4278, 2011
10. Avrachenkov, K., Dobrynin, V., Nemirovsky, D., Son Kim Pham, Smirnova, E. PageRank Based Clustering of Hypertext Document Collections // Proceedings of the 31-st annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR, 2008, С. 873-874.
11. Dietz, L., Bickel, S., Scheffer, T., Unsupervised Prediction of Citation influences // Proceedings of the 24-st International conference on machine learning, 2007.
12. Zhang, X., LeCun, Y., Text understanding from scratch. // Computing research repository vol. abs/1502.01710

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ