Введение 4
Глава 1. Тональная классификация 5
1.1. Предобработка данных 6
1.2. Латентно-семантический анализ 7
1.3. Скрытая марковская модель 8
1.3.1. Модель первого порядка 8
1.3.2. Оценка параметров модели 9
1.3.3. Модель высокого порядка 11
1.3.4. Декодирование 11
1.4. Сентиментальная скрытая марковская модель 12
1.5. Ансамбль моделей 13
1.5.1. Адаптивный бустинг 13
1.6. Результаты 14
Глава 2. Распределение эмоционально окрашенной лексики 16
2.1. Отрицательное биномиальное распределение 16
2.1.1. Оценивание параметров распределения 17
2.1.2. Проверка гипотезы согласия 18
2.2. Результаты 18
2.2.1. Геометрическое распределение 19
2.2.2. Отрицательное биномиальное распределение 20
Заключение 22
Список литературы
Анализ и установление взаимосвязей между категориальными переменными, описывающими объект или явление, является одной из важнейших задач современной математической статистики. Основная цель анализа заключается в группировке значений по взаимоисключающим категориям. Наиболее интересен случай, когда значения внутри категорий подчиняются известному закону распределения. Тогда решение множества прикладных задач сводится к решению задачи проверки гипотезы принадлежности случайной величины к соответствующему распределению.
В данной работе рассматриваются распределения слов в текстах различных тональностей. Предполагается, что эмоционально окрашенная лексика будет подчиняться известному закону распределения, в частности отрицательному биномиальному. Решение поставленной задачи может быть разделено на две части. Во-первых, необходимо уметь классифицировать тексты. Во-вторых, необходимо уметь оценивать параметры распределения и проверять гипотезу согласия эмпирического закона распределения с теоретическим.
Сделаем краткий обзор содержания данной работы. В первой главе рассмотрен алгоритм тональной классификации. В Разделах 1.2 и 1.3 содержится описание компонент классификатора. В Разделе 1.4 описана идея и модель классификатора, а в Разделе 1.6 приведена его точность в задачах тональной и модальной классификации. Вторая глава посвящена поиску эмоционально окрашенной лексики в позитивных и негативных текстах. Так, в Разделе 2.1 описан метод максимального правдоподобия, применимый к задаче оценивания параметров отрицательного биномиального распределения, и критерий проверки согласия распределений хи-квадрат. Раздел 2.2 содержит результаты и выводы по распределениям рассматриваемой лексики.
Таким образом, в работе были получены следующие результаты.
• На основе статистической модели был построен алгоритм тональной классификации. Классифицированные тексты могут быть использованы в задаче проверки распределений слов в текстах различных тональностей.
• Был описан метод оценивания параметров отрицательного биномиального распределения, а также критерий проверки гипотезы согласия распределений.
• На примере геометрического распределения, было установлено различие значений параметров распределений полярных слов в позитивных и негативных текстах.
• Установлена принадлежность эмоционально окрашенной лексики отрицательному биномиальному распределению.
Полученные результаты дают представление об использовании ключевых слов в текстах различных тональностей, а значит могут быть использованы в решении задачи тональной классификации. Исходный код может быть найден на Zenodo [17, 18].
1. Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis //Discourse Processes.— 1998.— Vol. 25, no. 2-3.— P. 259-284. DOI: 10.1080/01638539809545028.
2. Rajaraman A., Ullman J. D. Data Mining // Mining of Massive Datasets. — Cambridge University Press, 2011. —P. 1—-17. DOI:10.1017/CBO9781139058452.002.
3. Eckart C., Young G. The approximation of one matrix by another of lower rank // Psychometrika. — 1936. — P. 211-218. DOI:10.1007/BF02288367.
4. MacQueen J. Some methods for classification and analysis of multivariate observations // Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. — 1967. —Vol. 1. —P. 281-297.
5. Lawrence R. R. A Tutorial on Hidden Markov Models and Selected Applications // Proceedings of the IEEE. — 1989.
6. Dugad R., Desai U. A Tutorial On Hidden Markov Models.— 1996.
7. Forney G.D. The viterbi algorithm //Proceedings of the IEEE.— 1973.— Vol. 61, no. 3. —P. 268-278. DOI:10.1109/PROC.1973.9030.
8. Freund Y., Schapire R. E. A desicion-theoretic generalization of on-line learning and an application to boosting // Computational Learning Theory. — Springer Berlin Heidelberg, 1995. — P. 23-37.
9. Bo P., Lillian L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Proceedings of the ACL. — 2005.
10. Bo P., Lillian L. A Sentimental Education: Sentiment Analysis Using Subjectivity Sum-marization Based on Minimum Cuts // Proceedings of the ACL. — 2004.
11. DeGroot M.H., Schervish M.J. Probability and Statistics. — Pearson Education, 2013. — P. 297-298.
12. Alexeyeva N., Sotov A. The Negative Binomial Model of Word Usage // Electronic Journal of Applied Statistical Analysis. — 2013. — Vol. 6, no. 1.
13. Барт А. Г. Анализ медико-биологических систем. Метод частично-обратных функций. — Издательство Санкт-Петербургского государственного университета, 2003.
14. Le Cam L. Maximum likelihood: An Introduction. — International Statistical Institute, 1990.
15. Suli E., Mayers D. F. An Introduction to Numerical Analysis. — Cambridge University Press, 2003.
16. Maas A. L., Daly R. E., Pham P. T. Learning Word Vectors for Sentiment Analysis // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies.— Association for Computational Linguistics, 2011. — June. — P. 142-150. — URL:http://www.aclweb.org/anthology/P11-1015.
17. Samarin I. Sentimental Hidden Markov Model.— 2023. DOI:10.5281/zenodo.7957936.
18. Samarin I. Sentiment Distribution.— 2023. DOI:10.5281/zenodo.7958076.