Тип работы:
Предмет:
Язык работы:


ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВ С ОПОРОЙ НА ЛЕММЫ И ЛЕКСИЧЕСКИЕ КОНСТРУКЦИИ

Работа №125008

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы70
Год сдачи2017
Стоимость4850 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
81
Не подходит работа?

Узнай цену на написание


Оглавление 2
ВВЕДЕНИЕ 4
1. ВЕРОЯТНОСТНОЕ ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ 8
1.1. Основные понятия и термины 8
1.2. Ориентированные вероятностные тематические модели 12
Выводы к главе 1 20
2. ТЕМАТИЧЕСКИЕ МОДЕЛИ, УЧИТЫВАЮЩИЕ А-ГРАММЫ 21
2.1. Использование n-грамм в задачах автоматической обработки естественного языка 21
2.2. Обзор предложенных ранее методов автоматического включения n-грамм в тематические модели 24
2.2.1. Унифицированные вероятностные тематические модели 24
2.2.2. Предварительное извлечение словосочетаний 31
2.3. Сравнение двух подходов к выделению n-грамм 33
Выводы к главе 2 34
3. ТЕОРЕТИЧЕСКОЕ ОПИСАНИЕ ЭКСПЕРИМЕНТА ПО АВТОМАТИЧЕСКОМУ ДОБАВЛЕНИЮ БИГРАММ В ТЕМАТИЧЕСКИЕ МОДЕЛИ 35
3.1. Предварительная обработка корпуса текстов 35
3.2. Выделение биграмм с помощью использования модуля Phrases 36
3.3. Построение тематической модели корпуса текстов с выделенными в них биграммами 37
Выводы к главе 3 40
4. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМА АВТОМАТИЧЕСКОГО ДОБАВЛЕНИЯ БИГРАММ НА МАТЕРИАЛЕ КОРПУСОВ РУССКОЯЗЫЧНЫХ ТЕКСТОВ 41
4.1. Предварительная обработка корпуса текстов 42
4.2. Выделение биграмм 42
4.3. Построение тематической модели на основании корпуса с выделенными биграммами 47
4.4. Конечный результат работы алгоритма для корпуса текстов по радиоэлектронике, ракетостроению и технике 48
4.5. Конечный результат работы алгоритма для корпуса текстов по лингвистике 50
4.6. Оценка результатов работы предложенного алгоритма автоматического добавления биграмм в тематические модели 52
Выводы к главе 4 56
ЗАКЛЮЧЕНИЕ 57
Список литературы 59
Электронные ресурсы 66
Приложение 1. Список стоп-слов на основе словарей служебных слов и оборотов НКРЯ 67
Приложение 2. Список стоп-слов, дополняющий список стоп-слов на основе словарей служебных слов и оборотов НКРЯ 70

Данная работа посвящена активно развивающемуся в последние годы направлению вероятностного тематического моделирования, суть которого заключается в создании семантических моделей корпуса текстов на основе разновидностей нечеткой кластеризации лексики. Вероятностные тематические модели (probabilistic topic model) коллекций текстовых документов представляют текстовый документ как вероятностную смесь тем, каждая из которых является дискретным распределением на множестве терминов. Таким образом, тематическая модель выступает как средство обобщения, систематизации и смыслового поиска для больших текстовых коллекций. Особенно эффективно тематические модели используются для выявления скрытых структур и поиска неявных зависимостей в данных, поскольку они позволяют определять тематику текстов и служат для решения задач классификации и кластеризации документов (то есть, задач разделения документов на два или более взаимно исключающих класса), поиска похожих документов, выявления и анализа различных временных трендов (Митрофанова 2014).
Автоматическое определение тематики текстов активно применяется для разбиения текстов по группам на основе семантической близости содержания. С помощью тематических моделей решаются разнообразные актуальные задачи обработки естественного языка; например, задачи выявления научных интересов авторов, обнаружения скрытых ассоциативных связей между отдельными исследователями или группами людей, выявления тенденций в развитии научных направлений, определения эмоциональной окраски текстов, осуществления автоматического аннотирования и индексирования документов (то есть, поиска наиболее соответствующих запросу документов и их ранжирование по данному запросу) и так далее. Кроме моделирования текстов, тематические модели широко используются для решения задач распознавания объектов и рукописного текста, кластеризации изображений и создания подписей для различных объектов, а также в других науках, например, в биоинформатике.
Традиционно тема представляется в виде номера темы и некоторого количества слов, вероятность принадлежности которых к данной теме наиболее высока (Нокель, 2015; Нокель, Лукашевич, 2015). Желаемое количество выделяемых тем, а также количество слов, представляющих данную тему, задается пользователем вручную. В дальнейшем в большинстве случаев пользователю предоставляется право самостоятельно интерпретировать данные, заложенные в выдаче.
В базовых алгоритмах тематического моделирования темы представлены исключительно униграммами. Это влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем, особенно в случае некомпозиционных словосочетаний, значение которых не сводится к сумме значений входящих в них слов: например, железная дорога не сводится к значению слов железная и дорога соответственно (Нокель, Лукашевич 2015). Таким образом, добавление в темы расширение тем за счет n-грамм представляет собой актуальную исследовательскую задачу.
В последнее время было проведено несколько исследований и предложено несколько основывающихся на разных методах подходов к решению данной проблемы (Wallach 2006; Wang, McCallum, Wei 2007), однако многие из них снижают качество модели или же излишне усложняют её (Нокель, Лукашевич 2015). В данной работе была предпринята попытка предложить новый метод, который бы действительно упрощал интерпретацию тем и повышал их точность.
Целью данного исследование является исследование существующих методов тематического моделирования, а также разработка алгоритма, позволяющего извлекать из корпуса текстов биграммы и триграммы и добавлять их в выделяемые темы наряду с униграммами.
Для достижения данной цели решаются следующие задачи:
1) исследование вероятностных тематических моделей, выбор модели, наиболее подходящей для целей данной работы;
2) исследование существующих методов добавления n-грамм в выделяемые темы;
3) разработка алгоритма для автоматического добавления биграмм, адаптированного для русскоязычных текстов и реализованного на языке программирования Python;
4) оценка работы предлагаемого алгоритма на двух русскоязычных корпусах: на корпусе специальных текстов по радиоэлектронике, ракетостроению и технике и на корпусе текстов на лингвистическую тематику.
Объектом исследования является тематическое моделирование русскоязычных текстов, предметом исследования - алгоритмы автоматического добавления биграмм в выделяемые темы. В работе используются методы статистического, лингвистического анализа данных и эксперимент. Материалом исследования является два русскоязычных корпуса специальных текстов: по радиоэлектронике, ракетостроению и технике и на лингвистическую тематику.
Данная работа состоит из введения, трех глав, заключения, списка литературы и приложений. В первой главе рассматриваются теоретические вопросы, связанные с выделением тем, проблемы тематического моделирования и основные виды тематических моделей. Во второй главе описаны существующие алгоритмы расширения тем с помощью биграмм. Третья глава посвящена теоретическому описанию предлагаемого алгоритма для русского языка. В четвертой главе обсуждаются и оцениваются полученные результаты работы алгоритма на материале двух русскоязычных корпусов.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Итак, в данной работе был изучен такой современный инструмент для обработки естественного текста, как тематическое моделирование.
Тематическое моделирование - это «способ построения модели текстовой коллекции, отражающий переход от совокупности документов, совокупности слов и документах коллекции к набору тем, характеризующих текстовую коллекцию»» (Митрофанова 2014). Иными словами, построение тематической модели помогает лучше понять глубинную семантику текстовой коллекции, что, в свою очередь, значительно облегчает дальнейшую работу с текстом, их кластеризацию и категоризацию.
На сегодняшний момент создано и успешно применяется большое количество различных тематических моделей. Их значительная часть основана на двух базовых алгоритмах - LDA и PLSA. Каждая из моделей помогает решить разные задачи, однако общим недостатком большинства из них является тот факт, что темы представляются исключительно униграммами. Это заметно ухудшает точность выделения тем и усложняет их интерпретацию исследователем. Несмотря на некоторые успешные реализации идеи включения н-грамм в тематические модели, на сегодняшний день нет универсального метода, позволяющего однозначно решить данную проблему. Одной из целей нашего исследования было создание подобного алгоритма.
Для достижения цели исследования были изучены различные вероятностные тематические модели и разработан собственный алгоритм для добавления в темы биграмм, основывающийся на их выделении в текстовой коллекции вначале на этапе предобработки текста, а затем - на выявленных темах. Алгоритм был реализован на языке программирования Python и проверен на двух русскоязычных корпусах: на корпусе специальных текстов по радиоэлектронике, ракетостроению и технике и на корпусе текстов по лингвистике.
Полученные результаты можно считать удовлетворительными, поскольку более 70% выделенных в темах биграмм действительно таковыми являются. Таким образом, поставленные в начале данной работы задачи были решены.
В дальнейшем планируется усовершенствовать выделение биграмм с использованием частеречной разметки текста, обеспечить приведение биграмм к согласованной форме, а также проверить работу алгоритма на корпусах текстов других стилей.


1. Большая советская энциклопедия: в 30 т. / Гл. ред. А. М. Прохоров. — 3-е изд. — М. : Сов. энцикл., 1969 - 1978.
2. Бузикашвили Н.Е., Самойлов Д.В., Крылова Г.А. N-граммы в лингвистике // Сборник: Методы и средства работы с документами. М.: Диториал УРРС. 2000. 376 с. С. 91-130.
3. Воронцов К.В. Вероятностное тематическое моделирование // www.machinelearning.ru : web. — 2013.
4. Дубовик А.Р. Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам // Международный научный симпозиум «Интернет и современное общество». СПб., 2017 [в печати].
5. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. - СПб., 2005. - 48 с.
6. Кольцов С.Н., Кольцова О.Ю., Митрофанова О.А., Шиморина А.С. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Материалы XVII Всероссийской объединенной конференции «Интернет и современное общество» IMS-2014, Санкт- Петербург, 19-20 ноября 2014 г. СПб., 2014. С. 135-142.
7. Математическая энциклопедия / Ред. коллегия: И.М. Виноградов (глав. ред.) [и др.]. - Т. 1. А-Г. - М., 1977. - 1152 стб. (576 с.)
8. Митрофанова О.А. Моделирование тематики специальных текстов на основе алгоритма LDA. // Санкт-Петербург, 11—16 марта 2013 г.: Избранные труды. СПб.: Филологический факультет СПбГУ, а. 2014.-С. 220-233.
9. Нокель М.А. Методы улучшения вероятностных тематических моделей текстовых коллекций на основе лексико-терминологической информации: ): дис. ... канд.физ-мат.наук. -. М., 2016.- 159 с.
10. Нокель М.А., Лукашевич Н.В. Тематические модели: добавление биграмм и учет сходства между книграммами и биграммами. // Вычислительные методы и программирование. -2015.- Т.6 - С. 215 - 234.
11. Aletras N. Interpreting Document Collections with Topic Models. PhD dissertation. University of Sheffield, Sheffield, UK. 2014.
12. Baker, J. K. Stochastic modeling for automatic speech understanding. // Readings in Speech Recognition, 1990. -P. 297-307.
13. Bharucha-Reid A. T. Elements of the Theory of Markov Processes and Their Applications. New York: McGraw-Hill, 1960.
14. Blei D.M, McAuliffe J.D. Supervised topic models. // In: Advances in Neural Information Processing Systems (NIPS) . Cambridge, MA, MIT Press, 2007.-P.121-128.
15. Blei D.M, Ng A., Jordan M.. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. Т. 3. -P. 993-1022.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ