Тип работы:	Предмет:	Язык работы:

ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РУССКОЯЗЫЧНЫХ ТЕКСТОВ С ОПОРОЙ НА ЛЕММЫ И ЛЕКСИЧЕСКИЕ КОНСТРУКЦИИ

Работа №	72491
Тип работы	Дипломные работы, ВКР
Предмет	лингвистика
Объем работы	70
Год сдачи	2017
Стоимость	4225 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	298

Не подходит работа?

Узнай цену на написание

Содержание

Оглавление 2
ВВЕДЕНИЕ 4
1. ВЕРОЯТНОСТНОЕ ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ 8
1.1. Основные понятия и термины 8
1.2. Ориентированные вероятностные тематические модели 12
Выводы к главе 1 20
2. ТЕМАТИЧЕСКИЕ МОДЕЛИ, УЧИТЫВАЮЩИЕ А-ГРАММЫ 21
2.1. Использование n-грамм в задачах автоматической обработки естественного
языка 21
2.2. Обзор предложенных ранее методов автоматического включения n-грамм в
тематические модели 24
2.2.1. Унифицированные вероятностные тематические модели 24
2.2.2. Предварительное извлечение словосочетаний 31
2.3. Сравнение двух подходов к выделению n-грамм 33
Выводы к главе 2 34
3. ТЕОРЕТИЧЕСКОЕ ОПИСАНИЕ ЭКСПЕРИМЕНТА ПО АВТОМАТИЧЕСКОМУ
ДОБАВЛЕНИЮ БИГРАММ В ТЕМАТИЧЕСКИЕ МОДЕЛИ 35
3.1. Предварительная обработка корпуса текстов 35
3.2. Выделение биграмм с помощью использования модуля Phrases 36
3.3. Построение тематической модели корпуса текстов с выделенными в них
биграммами 37
Выводы к главе 3 40
4. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМА АВТОМАТИЧЕСКОГО
ДОБАВЛЕНИЯ БИГРАММ НА МАТЕРИАЛЕ КОРПУСОВ РУССКОЯЗЫЧНЫХ ТЕКСТОВ 41
4.1. Предварительная обработка корпуса текстов 42
4.2. Выделение биграмм 42
4.3. Построение тематической модели на основании корпуса с выделенными
биграммами 47
4.4. Конечный результат работы алгоритма для корпуса текстов по
радиоэлектронике, ракетостроению и технике 48
4.5. Конечный результат работы алгоритма для корпуса текстов по лингвистике . 50
4.6. Оценка результатов работы предложенного алгоритма автоматического
добавления биграмм в тематические модели 52
Выводы к главе 4 56
ЗАКЛЮЧЕНИЕ 57
Список литературы 59
Электронные ресурсы 66
Приложение 1. Список стоп-слов на основе словарей служебных слов и оборотов
НКРЯ 67
Приложение 2. Список стоп-слов, дополняющий список стоп-слов на основе словарей служебных слов и оборотов НКРЯ 70

Введение

Данная работа посвящена активно развивающемуся в последние годы направлению вероятностного тематического моделирования, суть которого заключается в создании семантических моделей корпуса текстов на основе разновидностей нечеткой кластеризации лексики. Вероятностные тематические модели (probabilistic topic model)коллекций текстовых документов представляют текстовый документ как вероятностную смесь тем, каждая из которых является дискретным распределением на множестве терминов. Таким образом, тематическая модель выступает как средство обобщения, систематизации и смыслового поиска для больших текстовых коллекций. Особенно эффективно тематические модели используются для выявления скрытых структур и поиска неявных зависимостей в данных, поскольку они позволяют определять тематику текстов и служат для решения задач классификации и кластеризации документов (то есть, задач разделения документов на два или более взаимно исключающих класса), поиска похожих документов, выявления и анализа различных временных трендов (Митрофанова 2014).
Автоматическое определение тематики текстов активно применяется для разбиения текстов по группам на основе семантической близости содержания. С помощью тематических моделей решаются разнообразные актуальные задачи обработки естественного языка; например, задачи выявления научных интересов авторов, обнаружения скрытых ассоциативных связей между отдельными исследователями или группами людей, выявления тенденций в развитии научных направлений, определения эмоциональной окраски текстов, осуществления автоматического аннотирования и индексирования документов (то есть, поиска наиболее соответствующих запросу документов и их ранжирование по данному запросу) и так далее. Кроме моделирования текстов, тематические модели широко используются для решения задач распознавания объектов и рукописного текста, кластеризации изображений и создания подписей для различных объектов, а также в других науках, например, в биоинформатике.
Традиционно тема представляется в виде номера темы и некоторого количества слов, вероятность принадлежности которых к данной теме наиболее высока (Нокель, 2015; Нокель, Лукашевич, 2015). Желаемое количество выделяемых тем, а также количество слов, представляющих данную тему, задается пользователем вручную. В дальнейшем в большинстве случаев пользователю предоставляется право самостоятельно интерпретировать данные, заложенные в выдаче.
В базовых алгоритмах тематического моделирования темы представлены исключительно униграммами. Это влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем, особенно в случае некомпозиционных словосочетаний, значение которых не сводится к сумме значений входящих в них слов: например, железная дорога не сводится к значению слов железная и дорога соответственно (Нокель, Лукашевич 2015). Таким образом, добавление в темы расширение тем за счет n-грамм представляет собой актуальную исследовательскую задачу.
В последнее время было проведено несколько исследований и предложено несколько основывающихся на разных методах подходов к решению данной проблемы (Wallach 2006; Wang, McCallum, Wei 2007), однако многие из них снижают качество модели или же излишне усложняют её (Нокель, Лукашевич 2015). В данной работе была предпринята попытка предложить новый метод, который бы действительно упрощал интерпретацию тем и повышал их точность.
Целью данного исследование является исследование существующих методов тематического моделирования, а также разработка алгоритма, позволяющего извлекать из корпуса текстов биграммы и триграммы и добавлять их в выделяемые темы наряду с униграммами.
Для достижения данной цели решаются следующие задачи:
1) исследование вероятностных тематических моделей, выбор модели, наиболее подходящей для целей данной работы;
2) исследование существующих методов добавления н-грамм в выделяемые темы;
3) разработка алгоритма для автоматического добавления биграмм, адаптированного для русскоязычных текстов и реализованного на языке программирования Python;
4) оценка работы предлагаемого алгоритма на двух русскоязычных корпусах: на корпусе специальных текстов по радиоэлектронике, ракетостроению и технике и на корпусе текстов на лингвистическую тематику.
Объектом исследования является тематическое моделирование русскоязычных текстов, предметом исследования - алгоритмы автоматического добавления биграмм в выделяемые темы. В работе используются методы статистического, лингвистического анализа данных и эксперимент. Материалом исследования является два русскоязычных корпуса специальных текстов: по радиоэлектронике, ракетостроению и технике и на лингвистическую тематику.
Данная работа состоит из введения, трех глав, заключения, списка литературы и приложений. В первой главе рассматриваются теоретические вопросы, связанные с выделением тем, проблемы тематического моделирования и основные виды тематических моделей. Во второй главе описаны существующие алгоритмы расширения тем с помощью биграмм. Третья глава посвящена теоретическому описанию предлагаемого алгоритма для русского языка. В четвертой главе обсуждаются и оцениваются полученные результаты работы алгоритма на материале двух русскоязычных корпусов.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

Итак, в данной работе был изучен такой современный инструмент для обработки естественного текста, как тематическое моделирование.
Тематическое моделирование - это «способ построения модели текстовой коллекции, отражающий переход от совокупности документов, совокупности слов и документах коллекции к набору тем, характеризующих текстовую коллекцию»» (Митрофанова 2014). Иными словами, построение тематической модели помогает лучше понять глубинную семантику текстовой коллекции, что, в свою очередь, значительно облегчает дальнейшую работу с текстом, их кластеризацию и категоризацию.
На сегодняшний момент создано и успешно применяется большое количество различных тематических моделей. Их значительная часть основана на двух базовых алгоритмах - LDA и PLSA. Каждая из моделей помогает решить разные задачи, однако общим недостатком большинства из них является тот факт, что темы представляются исключительно униграммами. Это заметно ухудшает точность выделения тем и усложняет их интерпретацию исследователем. Несмотря на некоторые успешные реализации идеи включения н-грамм в тематические модели, на сегодняшний день нет универсального метода, позволяющего однозначно решить данную проблему. Одной из целей нашего исследования было создание подобного алгоритма.
Для достижения цели исследования были изучены различные вероятностные тематические модели и разработан собственный алгоритм для добавления в темы биграмм, основывающийся на их выделении в текстовой коллекции вначале на этапе предобработки текста, а затем - на выявленных темах. Алгоритм был реализован на языке программирования Pythonи проверен на двух русскоязычных корпусах: на корпусе специальных текстов по радиоэлектронике, ракетостроению и технике и на корпусе текстов по лингвистике.
Полученные результаты можно считать удовлетворительными, поскольку более 70% выделенных в темах биграмм действительно таковыми являются. Таким образом, поставленные в начале данной работы задачи были решены.
В дальнейшем планируется усовершенствовать выделение биграмм с использованием частеречной разметки текста, обеспечить приведение биграмм к согласованной форме, а также проверить работу алгоритма на корпусах текстов других стилей.

Литература

1. Большая советская энциклопедия: в 30 т. / Гл. ред. А. М. Прохоров. — 3-е изд. — М. : Сов. энцикл., 1969 - 1978.
2. Бузикашвили Н.Е., Самойлов Д.В., Крылова Г.А. N-граммы в лингвистике // Сборник: Методы и средства работы с документами. М.: Диториал УРРС. 2000. 376 с. С. 91-130.
3. Воронцов К.В. Вероятностное тематическое моделирование // www.machinelearning.ru: web. — 2013.
4. Дубовик А.Р. Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам // Международный научный симпозиум «Интернет и современное общество». СПб., 2017 [в печати].
5. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. - СПб., 2005. - 48 с.
6. Кольцов С.Н., Кольцова О.Ю., Митрофанова О.А., Шиморина А.С.
Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Материалы XVII
Всероссийской объединенной конференции «Интернет и современное общество» IMS-2014, Санкт- Петербург, 19-20 ноября 2014 г. СПб., 2014. С. 135-142.
7. Математическая энциклопедия / Ред. коллегия: И.М. Виноградов (глав. ред.) [и др.]. - Т. 1. А-Г. - М., 1977. - 1152 стб. (576 с.)
8. Митрофанова О.А. Моделирование тематики специальных текстов на основе алгоритма LDA.// Санкт-Петербург, 11—16 марта 2013 г.: Избранные труды. СПб.: Филологический факультет СПбГУ, а. 2014.-С. 220-233.
9. Нокель М.А. Методы улучшения вероятностных тематических
моделей текстовых коллекций на основе лексико¬
терминологической информации: ): дис. ... канд.физ-мат.наук. -. М., 2016.- 159 с.
10. Нокель М.А., Лукашевич Н.В. Тематические модели: добавление биграмм и учет сходства между книграммами и биграммами. // Вычислительные методы и программирование. -2015.- Т.6 - С. 215 - 234.
11. Aletras N. Interpreting Document Collections with Topic Models. PhD dissertation. University of Sheffield, Sheffield, UK. 2014.
12. Baker, J. K. Stochastic modeling for automatic speech understanding. //Readings in Speech Recognition, 1990. -P. 297-307.
13. Bharucha-Reid A. T. Elements of the Theory of Markov Processes and Their Applications. New York: McGraw-Hill, 1960.
14. Blei D.M, McAuliffe J.D. Supervised topic models.// In: Advances in Neural Information Processing Systems (NIPS) . Cambridge, MA, MIT Press, 2007.-P.121-128.
15. Blei D.M, Ng A., Jordan M.. Latent Dirichlet Allocation// Journal of Machine Learning Research. 2003. Т. 3. -P. 993-1022.
16. Blei D.M., Lafferty J.D. Dynamic topic models// In Proceedings of the 23rd international conference on Machine learning (ICML 2006). New York: ACM Press, 2006. С. 113-120.
17. Boyd-Graber J.L., Blei D.M., Zhu X. A Topic Model for Word Sense Disambiguation.// Proceedings of the Joint Meeting of the Conference on Empirical Methods in Natural Language Processing and The Conference on Computational Natural Language Learning. Czech Republic: Prague; 2007.
18. Cano Basave A.E., He Y., Xu R. Automatic Labelling of Topic Models Learned from Twitter by Summarisation// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2014. С. 618-624.
19. Choueka Y. Looking for Needles in A Haystack, or Locating Interesting Collocational Expressions in Large Textual Databases.// In Proceedings of Recherche d’Informations Assistee par Ordinateur 1988 (RIAO’88). Cambridge, USA, 1988. C.609-623.
20. Clark A., Fox C., Lappin S. The Handbook of Computational Linguistics and Natural Language Processing. Hoboken, NJ: Wiley- Blackwell, 2013.
21. Cohen J. A Coefficient of Agreement for Nominal Scales . Educational and Psychological Measurement, 1960:37-46.
22. Cohn D., Hofmann T. The missing link- a probabilistic model of document content and hypertext connectivity. // In: Advances in Neural Information Processing Systems (NIPS) 13. Cambridge, MA, MIT Press, 2001.-7 p.
23. Darling W.M. A theoretical and practical impleentation tutorial on topic modeling and Gibbs sampling. School of Computer Science, University of Guelph, 2011.-10 p.
24. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China. 2010. Т. 4. № 2. -P. 280-301.
25. Fleiss J.L. Statistical Methods for Rates and Proportions (2nd ed.). New York: John Wiley, 1981.
26. Gaussier, E., Renders, J.-M., Matveeva, I., Goutte, C., Dejean, H.. A geometric view on bilingual lexicon extraction from comparable corpora.// In Proceeding of the 42th Annual Meeting of the Association for Computational Linguistics. -2004.-P.526-533.
27. Gernot A. Fink Markov Models for Pattern Recognition: From Theory to Applications. Springer-Verlag New York, NJ, USA 2007.
28. Greene D., O’Callaghan D., Cunningham P. How many topics? stability analysis for topic models. // Joint European Conference on Machine Learning and Knowledge Discovery in Databases - Springer Berlin Heidelberg -2014.- P. 498 - 513.
29. Griffiths T., Steyvers M., Tenenbaum J. Topics in semantic representation. Psychological Review. // American Psychological Association - Vol. 114, № 2. -2007.- P. 211-244.
30. Griffiths T.L, Steyvers M. Finding scientific topics. //In: Proceedings of the National Academy of Sciences. USA. 2004.-P. 5228-5235.
31. Griffiths T.L. , Steyvers M., Blei D. M, Tenenbaum J.B. Integrating topics and syntax. // In: Advances in Neural Information Processing Systems (NIPS) 17. Cambridge, MA, MIT Press. 2005. -18 p.
32. Gwet L. K. Testing the Difference of Correlated Agreement Coefficients for Statistical Significance. Educational and Psychological Measurement 2016, Vol. 76(4) 609-637
33. Harris Z. Distributional Structure.// In Word 10 (23). 1954. C. 146¬162.
34. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data mining, Inference, and Prediction. New York: Springer, 2009. C. 485-586. ISBN 978-0-387-84857-0.
35. Hindle A., Ernst N.A., Godfrey M.W., Mylopoulos J. Automated Topic Naming: Supporting Cross-Project Analysis of Software Maintenance Activities// Empirical Software Engineering. 2013. Т. 18. № 6. С. 1125-1155.
36. Hofmann T. Probabilistic latent semantic analysis. // In: Proceedings of the 15th Annual Conference on Uncertainty in Artificial Intelligence (UAI), Stockholm, Sweden, 1999.- P. 289-296.
37. Hu, W., Shimizu, N., Nakagawa, H., And Sheng, H. Modeling Chinese Documents with Topical Word-Character Models.// In Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK, 2008. С. 345-352.
38. Jelinek, F. Self-organized language modeling for speech recognition.// In Readings in Speech Recognition, 1990.-P. 450-506.
39. Jurafsky D., M. H. James. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Dorling Kindersley Pvt, Ltd., 2014.
40. Lau J. H., Baldwin T., Newman D. . On Collocations and Topic Models. //ACM 131 Transactions on Speech and Language Processing. - ACM Press. -- Vol. 10, № 3. - 2013.-P. 1-14.
41. Lau J.H., Newman D., Karimi S., Baldwin T. Best Topic Word Selection for Topic Labelling //COLING’10 In Proceedings of the 23rd International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2010.- P. 605-613.
42. Magatti D., Calegari S., Ciucci D., Stella F. Automatic labeling of topics // ISDA 2009 - 9th International Conference on Intelligent Systems Design and Applications. Pisa: IEEE, 2009. С. 1227-1232.
43. Manning C., Schutze H. Foundations of Statistical Natural Language Processing. MA, USA: MIT Press Cambridge, 1999.
44. McCallum A., Corrada-Emmanuel A., Wang X. The author-recipient- topic Model for Topic and Role Discovery in Social Networks: Experiments with Enron and Academic Email. 2004. -16 p.
45. Mei Q., Shen X., Zhai C. Automatic labeling of multinomial topic models// In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’07. New York, New York, USA: ACM Press, 2007. С. 490.
46. Mirzagitova A., Mitrofanova O. Automatic assignment of labels in Topic Modelling for Russian Corpora// In Proceedings of 7th Tutorial and Research Workshop on Experimental Linguistics, ExLing 2016 / ed. A. Botinis. - Saint Petersburg: International Speech Communication Association, 2016. P. 115-118.
47. Nolasco D., Oliveira J. Detecting Knowledge Innovation through Automatic Topic Labeling on Scholar Data// 49th Hawaii International Conference on System Sciences (HICSS). Koloa, HI: IEEE Computer Society, 2016. С. 358-367.
48. Pedregosa et al. Scikit-learn: Machine Learning in Python.// Journal of Machine Learning Research 12.-2011.-P. 2825-2830.
49. Powers D. The Problem with Kappa // Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, 2012. C. 345-355
50. Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. // In Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA'03, June 23 - 26, 2003, Las Vegas, Nevada, USA, 2003.
51. Segalovich I., Maslov M. Russian Morphological Analysis and Synthesis With Automatic Generation of Inflection Models For Unknown Words. //Dialog'98 (in Russian) , 1998.
52. Shannon, C. E. A mathematical theory of communication.// Bell System Technical Journal, 27(3), 1948.-P.379-423.
53. Steyvers M., Smyth P., Rosen-Zvi M., Griffiths T. Probabilistic author-topic models for information discovery. // In Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle, Washington, 2004.- P. 306-315.
54. Vulic I., De Smet W., M-F. Moens. Identifying Word Translations from Comparable Corpora Using Latent Topic Models //In Proceeding of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon, 2011. -P. 479-484.
55. Wallach H. Topic Modeling: Beyond Bag-Of-Words // In Proceedings of the 23rd International Conference on Machine Learning. -2006.-P. 977-984.
56. Wang X., McCallum A., Wei X. Topical N-Grams: Phrase and Topic Discovery, with an Application to Information Retrieval // Seventh IEEE International Conference on Data Mining (ICDM 2007). NY: IEEE, 2007.- P. 697-702.
Электронные ресурсы
1. MyStem
URL:https://tech.yandex.ru/mystem/
(дата последнего обращения 27.04.2017)
2. Scikit-Learn
URL:http://scikit-learn.org/stable
(дата последнего обращения 27.04.2017)
3. NLTK
URL:http://www.nltk.org/
(дата последнего обращения 27.04.2017)
4. GenSim
URL:https ://radimrehurek.com/ gensim/
(дата последнего обращения 27.04.2017)
5. ReCal
URL:http://dfreelon.org/
(дата последнего обращения 21.05.2017)