Введение 3
Постановка задачи 5
Глава 1. Вероятностное тематическое моделирование 6
1.1. Основные понятия 6
1.2. Модель PLSA 7
1.3. Модель LDA 9
1.4. Аддитивная регуляризация тематических моделей 12
1.4.1. Общий подход 12
1.4.2. Разновидности регуляризаторов 13
1.5. Метрики для оценки качества модели 18
Глава 2. Предлагаемый алгоритм 20
3.1. Предварительная обработка текста 22
3.2. Создание обучающей выборки и обучение классификатора 25
3.3. Оценка качества построенной модели и выводы 30
Заключение 33
Список литературы 34
Приложение 36
Быстрый рост потоков информации ставит не только вопрос её хранения, но и задачу её систематизации и анализа. При работе с текстами подобный анализ помогает извлечь необходимые сведения о настроении, актуальности, тематике, а также является необходимой ступенью перед последующими действиями вроде поиска, сравнения или категоризации. Большой популярностью пользуются различные статистические методы обработки текста, в частности, тематическое моделирование. Вероятностная тематическая модель (probabilistic topic model) коллекции документов представляет каждый документ в виде дискретного распределения вероятностей тем, а каждую тему - в виде дискретного распределения вероятностей слов (терминов). Построение вероятностной тематической модели можно также описать как задачу одновременной кластеризации (би-кластеризации) документов и слов по одному и тому же множеству кластеров, называемых темами. Особенностью подобного моделирования является осуществление «нечеткой кластеризации» (soft clustering), то есть документ может принадлежать нескольким темам [2].
Тематические модели актуальны для решения множества задач анализа текста: информационный поиск, тематическая сегментация текстов, выявление трендов в новостных публикациях, обнаружение текстового спама, а также классификация и категоризация документов, что и будет раскрыто подробнее в данной работе.
Задача классификации чаще всего предполагает построение алгоритма отнесения каждого документа лишь к одному классу (однозначная классификация). Вероятностная тематическая модель же способна выявить принадлежность документа к нескольким классам (многозначная классификация). К примеру, в медицинских исследованиях зачастую используют статистические методы, и при стандартной классификации текст с подобным исследованием будет отнесен к условному классу «медицина», так как характеризующие этот класс слова будут преобладать. Но при классификации с помощью вероятностной тематической модели этот текст будет также определен к классу, скажем, «статистический анализ», а может и к нескольким другим. Более того, будет выявлена вероятность принадлежности документа к этим классам. Таким образом, какому-либо классу будут соответствовать и документы, для которых этот класс не является основным.
Классификация также предполагает наличие обучающей выборки, которая составляется вручную экспертом (или несколькими) и по возможности является достаточно информативной, чтобы метод в дальнейшем смог правильно распределять новые документы по имеющимся классам. Создание обучающей выборки занимает много времени, особенно при условии отнесения каждого документа к нескольким классам, а также ограничено знаниями эксперта, ведь он может слабо разбираться в какой-либо области, значит не исключена изначальная неточность в определении классов этой области и принадлежности к ним документов. К тому же общее количество классов также может оказаться относительно небольшим, и тогда скорее всего будут сформулированы лишь обобщенные темы. Поэтому в задачах классификации по большому количеству маленьких классов имеется проблема наличия подходящей обучающей выборки.
Постановка задачи
Целью данной работы является построение вероятностной тематической модели для многозначной классификации коллекции документов по небольшим классам, удовлетворяющей условиям: отсутствие готовой качественной обучающей выборки и отнесение документа к классу, даже если этот класс не формирует основную тематику документа.
В качестве документов рассматриваются выпускные квалификационные работы студентов, но это также могут быть научные статьи или любые другие документы. Сделанный выбор не влияет на результаты и объясняется исключительно личным удобством.
Для достижения данной цели ставятся следующие задачи:
1) исследовать существующие вероятностные тематические модели и способы их оценки;
2) выбрать наиболее подходящие для поставленной цели модели и подобрать параметры;
3) построить алгоритм и оценить его работу.
В данной работе рассмотрены некоторые вероятностные тематические модели. Выделена проблема отсутствия готовой качественной обучающей выборки для множественной классификации по относительно большому количеству относительно небольших классов. Предложено решение в виде создания обучающей выборки путем мягкой кластеризации через вероятностно тематическую модель. Описан алгоритм построения вероятностной тематической модели множественной классификации коллекции документов с обучением на выборке, созданной в результате предложенного решения.
Описанный в работе алгоритм показал хорошую работу, и модель можно считать достаточно качественной.
[1] Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — Т. 1, № 6. — С. 657-686.
[2] Коршунов Антон, Гомзин Андрей. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН, 2012. Т. 23. С. 215-244.
[3] Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. — М.: Наука, 1986.
[4] Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993-1022.
[5] Bodrunova S., Koltsov S., Koltsova O., Nikolenko S.I., Shimorina A. Interval semisupervised LDA: Classifying needles in a haystack // MICAI (1) / Ed. by F.C. Espinoza, A.F. Gelbukh, M. Gonzalez-Mendoza. — Vol. 8265 of Lecture Notes in Computer Science.— Springer, 2013.— Pp. 265-274.
[6] Fuglede, B., Topsoe F. Jensen-Shannon divergence and Hilbert space embedding // Proceedings of the International Symposium on Information Theory, 2004. IEEE. p. 30.
[7] Girolami M., Kaban A. On an equivalence between PLSI and LDA // SIGIR’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. — 2003. — Pp. 433-434.
[8] Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50-57.
[9] Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.
[10] Rubin T.N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multi-label document classification // Machine Learning. — 2012. — Vol. 88, no. 1-2. — Pp. 157-208.
[11] Teh Y.W., Newman D., Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation // NIPS. - 2006. - Pp. 1353-1360.
[12] Vorontsov K. V., Potapenko A. A. Additive regularization of topic models // Machine Learning, Special Issue on Data Analysis and Intelligent Optimization with Applications. — 2015. — Vol. 101, no. 1. — Pp. 303-323.
[13] Wang Y. Distributed Gibbs sampling of latent dirichlet allocation: The gritty details, 2008.
[14] BigARTM - open source library. URL:http://bigartm.org
[15] XpdfReader — a free PDF toolkit. URL:http: //xpdfreader. com