Тип работы:	Предмет:	Язык работы:

Вероятностное моделирование в классификации коллекции документов

Работа №	129342
Тип работы	Магистерская диссертация
Предмет	информатика
Объем работы	38
Год сдачи	2020
Стоимость	4815 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	121

Не подходит работа?

Узнай цену на написание

Содержание

Введение 3
Постановка задачи 5
Глава 1. Вероятностное тематическое моделирование 6
1.1. Основные понятия 6
1.2. Модель PLSA 7
1.3. Модель LDA 9
1.4. Аддитивная регуляризация тематических моделей 12
1.4.1. Общий подход 12
1.4.2. Разновидности регуляризаторов 13
1.5. Метрики для оценки качества модели 18
Глава 2. Предлагаемый алгоритм 20
3.1. Предварительная обработка текста 22
3.2. Создание обучающей выборки и обучение классификатора 25
3.3. Оценка качества построенной модели и выводы 30
Заключение 33
Список литературы 34
Приложение 36

Введение

Быстрый рост потоков информации ставит не только вопрос её хранения, но и задачу её систематизации и анализа. При работе с текстами подобный анализ помогает извлечь необходимые сведения о настроении, актуальности, тематике, а также является необходимой ступенью перед последующими действиями вроде поиска, сравнения или категоризации. Большой популярностью пользуются различные статистические методы обработки текста, в частности, тематическое моделирование. Вероятностная тематическая модель (probabilistic topic model) коллекции документов представляет каждый документ в виде дискретного распределения вероятностей тем, а каждую тему - в виде дискретного распределения вероятностей слов (терминов). Построение вероятностной тематической модели можно также описать как задачу одновременной кластеризации (би-кластеризации) документов и слов по одному и тому же множеству кластеров, называемых темами. Особенностью подобного моделирования является осуществление «нечеткой кластеризации» (soft clustering), то есть документ может принадлежать нескольким темам [2].
Тематические модели актуальны для решения множества задач анализа текста: информационный поиск, тематическая сегментация текстов, выявление трендов в новостных публикациях, обнаружение текстового спама, а также классификация и категоризация документов, что и будет раскрыто подробнее в данной работе.
Задача классификации чаще всего предполагает построение алгоритма отнесения каждого документа лишь к одному классу (однозначная классификация). Вероятностная тематическая модель же способна выявить принадлежность документа к нескольким классам (многозначная классификация). К примеру, в медицинских исследованиях зачастую используют статистические методы, и при стандартной классификации текст с подобным исследованием будет отнесен к условному классу «медицина», так как характеризующие этот класс слова будут преобладать. Но при классификации с помощью вероятностной тематической модели этот текст будет также определен к классу, скажем, «статистический анализ», а может и к нескольким другим. Более того, будет выявлена вероятность принадлежности документа к этим классам. Таким образом, какому-либо классу будут соответствовать и документы, для которых этот класс не является основным.
Классификация также предполагает наличие обучающей выборки, которая составляется вручную экспертом (или несколькими) и по возможности является достаточно информативной, чтобы метод в дальнейшем смог правильно распределять новые документы по имеющимся классам. Создание обучающей выборки занимает много времени, особенно при условии отнесения каждого документа к нескольким классам, а также ограничено знаниями эксперта, ведь он может слабо разбираться в какой-либо области, значит не исключена изначальная неточность в определении классов этой области и принадлежности к ним документов. К тому же общее количество классов также может оказаться относительно небольшим, и тогда скорее всего будут сформулированы лишь обобщенные темы. Поэтому в задачах классификации по большому количеству маленьких классов имеется проблема наличия подходящей обучающей выборки.
Постановка задачи
Целью данной работы является построение вероятностной тематической модели для многозначной классификации коллекции документов по небольшим классам, удовлетворяющей условиям: отсутствие готовой качественной обучающей выборки и отнесение документа к классу, даже если этот класс не формирует основную тематику документа.
В качестве документов рассматриваются выпускные квалификационные работы студентов, но это также могут быть научные статьи или любые другие документы. Сделанный выбор не влияет на результаты и объясняется исключительно личным удобством.
Для достижения данной цели ставятся следующие задачи:
1) исследовать существующие вероятностные тематические модели и способы их оценки;
2) выбрать наиболее подходящие для поставленной цели модели и подобрать параметры;
3) построить алгоритм и оценить его работу.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В данной работе рассмотрены некоторые вероятностные тематические модели. Выделена проблема отсутствия готовой качественной обучающей выборки для множественной классификации по относительно большому количеству относительно небольших классов. Предложено решение в виде создания обучающей выборки путем мягкой кластеризации через вероятностно тематическую модель. Описан алгоритм построения вероятностной тематической модели множественной классификации коллекции документов с обучением на выборке, созданной в результате предложенного решения.
Описанный в работе алгоритм показал хорошую работу, и модель можно считать достаточно качественной.

Литература

[1] Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — Т. 1, № 6. — С. 657-686.
[2] Коршунов Антон, Гомзин Андрей. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН, 2012. Т. 23. С. 215-244.
[3] Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. — М.: Наука, 1986.
[4] Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993-1022.
[5] Bodrunova S., Koltsov S., Koltsova O., Nikolenko S.I., Shimorina A. Interval semisupervised LDA: Classifying needles in a haystack // MICAI (1) / Ed. by F.C. Espinoza, A.F. Gelbukh, M. Gonzalez-Mendoza. — Vol. 8265 of Lecture Notes in Computer Science.— Springer, 2013.— Pp. 265-274.
[6] Fuglede, B., Topsoe F. Jensen-Shannon divergence and Hilbert space embedding // Proceedings of the International Symposium on Information Theory, 2004. IEEE. p. 30.
[7] Girolami M., Kaban A. On an equivalence between PLSI and LDA // SIGIR’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. — 2003. — Pp. 433-434.
[8] Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50-57.
[9] Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.
[10] Rubin T.N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multi-label document classification // Machine Learning. — 2012. — Vol. 88, no. 1-2. — Pp. 157-208.
[11] Teh Y.W., Newman D., Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation // NIPS. - 2006. - Pp. 1353-1360.
[12] Vorontsov K. V., Potapenko A. A. Additive regularization of topic models // Machine Learning, Special Issue on Data Analysis and Intelligent Optimization with Applications. — 2015. — Vol. 101, no. 1. — Pp. 303-323.
[13] Wang Y. Distributed Gibbs sampling of latent dirichlet allocation: The gritty details, 2008.
[14] BigARTM - open source library. URL:http://bigartm.org
[15] XpdfReader — a free PDF toolkit. URL:http: //xpdfreader. com

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

Разработка системы тематической классификации веб-документов на основе алгоритмов машинного обучения
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4270 р. Год сдачи: 2016
Автоматическое выделение информативных тем документов с использованием латентного размещения Дирихле
Бакалаврская работа, математика и информатика. Язык работы: Русский. Цена: 4850 р. Год сдачи: 2017
ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВ С ОПОРОЙ НА ЛЕММЫ И ЛЕКСИЧЕСКИЕ КОНСТРУКЦИИ
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4225 р. Год сдачи: 2017
ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВ С ОПОРОЙ НА ЛЕММЫ И ЛЕКСИЧЕСКИЕ КОНСТРУКЦИИ
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4850 р. Год сдачи: 2017
АНАЛИЗ НОВОСТНОЙ КОЛЛЕКЦИИ С ПОМОЩЬЮ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4770 р. Год сдачи: 2019
Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4200 р. Год сдачи: 2022
Методы анализа пользовательских дискуссий в сети Web 2.0 на примере Telegram
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4210 р. Год сдачи: 2020

Логин
Пароль

Вероятностное моделирование в классификации коллекции документов

Тип работы

Магистерская диссертация

Предмет

информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

121

Подобные работы