Тема: Вероятностное моделирование в классификации коллекции документов
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Глава 1. Вероятностное тематическое моделирование 6
1.1. Основные понятия 6
1.2. Модель PLSA 7
1.3. Модель LDA 9
1.4. Аддитивная регуляризация тематических моделей 12
1.4.1. Общий подход 12
1.4.2. Разновидности регуляризаторов 13
1.5. Метрики для оценки качества модели 18
Глава 2. Предлагаемый алгоритм 20
3.1. Предварительная обработка текста 22
3.2. Создание обучающей выборки и обучение классификатора 25
3.3. Оценка качества построенной модели и выводы 30
Заключение 33
Список литературы 34
Приложение 36
📖 Введение
Тематические модели актуальны для решения множества задач анализа текста: информационный поиск, тематическая сегментация текстов, выявление трендов в новостных публикациях, обнаружение текстового спама, а также классификация и категоризация документов, что и будет раскрыто подробнее в данной работе.
Задача классификации чаще всего предполагает построение алгоритма отнесения каждого документа лишь к одному классу (однозначная классификация). Вероятностная тематическая модель же способна выявить принадлежность документа к нескольким классам (многозначная классификация). К примеру, в медицинских исследованиях зачастую используют статистические методы, и при стандартной классификации текст с подобным исследованием будет отнесен к условному классу «медицина», так как характеризующие этот класс слова будут преобладать. Но при классификации с помощью вероятностной тематической модели этот текст будет также определен к классу, скажем, «статистический анализ», а может и к нескольким другим. Более того, будет выявлена вероятность принадлежности документа к этим классам. Таким образом, какому-либо классу будут соответствовать и документы, для которых этот класс не является основным.
Классификация также предполагает наличие обучающей выборки, которая составляется вручную экспертом (или несколькими) и по возможности является достаточно информативной, чтобы метод в дальнейшем смог правильно распределять новые документы по имеющимся классам. Создание обучающей выборки занимает много времени, особенно при условии отнесения каждого документа к нескольким классам, а также ограничено знаниями эксперта, ведь он может слабо разбираться в какой-либо области, значит не исключена изначальная неточность в определении классов этой области и принадлежности к ним документов. К тому же общее количество классов также может оказаться относительно небольшим, и тогда скорее всего будут сформулированы лишь обобщенные темы. Поэтому в задачах классификации по большому количеству маленьких классов имеется проблема наличия подходящей обучающей выборки.
Постановка задачи
Целью данной работы является построение вероятностной тематической модели для многозначной классификации коллекции документов по небольшим классам, удовлетворяющей условиям: отсутствие готовой качественной обучающей выборки и отнесение документа к классу, даже если этот класс не формирует основную тематику документа.
В качестве документов рассматриваются выпускные квалификационные работы студентов, но это также могут быть научные статьи или любые другие документы. Сделанный выбор не влияет на результаты и объясняется исключительно личным удобством.
Для достижения данной цели ставятся следующие задачи:
1) исследовать существующие вероятностные тематические модели и способы их оценки;
2) выбрать наиболее подходящие для поставленной цели модели и подобрать параметры;
3) построить алгоритм и оценить его работу.
✅ Заключение
Описанный в работе алгоритм показал хорошую работу, и модель можно считать достаточно качественной.



