ВВЕДЕНИЕ 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ПРЕДПОСЫЛКИ РАЗРАБОТКИ АЛГОРИТМА СЕНТИМЕНТ-АНАЛИЗА ДЛЯ РАНЖИРОВАННОЙ КЛАССИФИКАЦИИ 6
1.1. Сентимент-анализ как направление прикладной лингвистики 6
1.2. Принципы и методы формирования обучающей выборки для технологии
машинного обучения 9
1.3. Художественный текст как особый источник данных для обучающей
выборки 12
1.4. Классификация эмоций по Лёвхейму как основа выделения
эмоциональных классов текстовых данных 16
1.5. Дизайн программы-приложения для синхронизации саундтрека и
эмоциональной тональности текста 18
ВЫВОДЫ ПО ГЛАВЕ 1 21
ГЛАВА 2 ОСОБЕННОСТИ ЭМОЦИОНАЛЬНЫХ КЛАССОВ ДАННЫХ ИЗ ХУДОЖЕСТВЕННЫХ ТЕКСТОВ 22
2.1. Формирование обучающей выборки 22
2.2. Эмоциональный класс текстовых данных «Страх / Ужас (Fear / Terror),
Гнев / Ярость (Anger / Rage)» 24
2.3. Эмоциональный класс текстовых данных «Стыд /Унижение (Shame /
Humiliation), Грусть / Тоска (Distress / Anguish)» 30
2.4. Эмоциональный класс текстовых данных «Радость / Счастье (Enjoyment /
Joy), Интерес / Возбуждение (Interest / Excitement)» 36
2.5. Эмоциональный класс текстовых данных «Презрение / Отвращение
(Contempt / Disgust)», «Удивление (Surprise)» 42
2.6. Реализация программы-приложения для синхронизации саундтрека и
эмоциональной тональности текста: основные трудности и результаты 48
ВЫВОДЫ ПО ГЛАВЕ 2 52
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 56
ПРИЛОЖЕНИЕ А 62
Процесс достижения определенного эмоционального состояния читателем во время чтения и осмысления художественного текста может получить дополнительную стимуляцию при помощи соответствующего музыкального сопровождения текстовосприятия. В этом случае музыка играет ту же самую роль как саундтрек для фильмов, где звук создает дополнительный эффект к визуальным сценам.
Актуальность исследования состоит в том, что на данный момент проектов по созданию специального классификатора, способного автоматически определять точную эмоцию, отражённую в тексте, пока немного, а для русскоязычных данных - нет.
Гипотеза исследования: Процесс подбора саундтрека зачастую происходит вручную и основывается на тех эмоциях, которые присутствуют в определенном моменте. В данной работе мы хотим доказать, что подобный процесс возможно автоматизировать, прибегнув к имеющимся современным инструментам компьютерной лингвистики.
Целью нашего исследования стала разработка компьютерной программы для синхронизации музыкального сопровождения и эмоциональной тональности текста на электронном носителе на основе использования принципов сентимент-анализа текста и классификации эмоций «Куб Лёвхейма».
Задачи исследования:
1) с помощью информантов приписать эмоционально окрашенному фрагменту текста ту или иную эмоцию, согласно Кубу Лёвхейма;
2) при помощи корпусного менеджера Sketch Engine выявить языковые маркеры той или иной эмоции;
3) разработать теоретические принципы базы данных «языковой маркер - имя эмоции - тег Last.fm»
4) описать алгоритм синхронизации языкового маркера и имени эмоции;
5) проанализировать процесс реализации программы-приложения для синхронизации саундтрека и эмоциональной тональности текста
Материалом для исследования послужили: 1) отобранные фрагменты текстов из художественных произведений: Дж. К. Роулинг «Случайная Вакансия», К. Тойбин «Бруклин», С. Чбоски «Хорошо быть тихоней», А. Асиман «Зови меня своим именем»; 2) разработанный текстовый корпус, состоящий из 100 фрагментов, полученный при помощи системы «Sketch Engine».
Основными методами исследования в работе являются методы сплошной и специальной выборки, сравнительный метод, анкетирование и корпусное ориентирование.
Объект исследования: рассматриваются языковые маркеры эмоций, согласно классификации Лёвхейма, в художественном тексте.
Предмет исследования: возможность автоматической синхронизации языковых маркеров эмоции, художественного текста и тегов саундтреков в соответствующей базе данных.
Степень разработанности: выбранная тема в отечественной лингвистике исследовалась такими научными деятелями как Азимов Э.Г., Айвазян С. А., Алифанова О.Г., Арнольд И.В., Бабенко Л.Г., Баранов А.Н., Гельгардт Р.Р. Тональность текста и машинное обучение рассматривались такими учёными как Клековкина М.В., Котельников Е.В., Лукашевич H.B., Четверкин И.И., Меньшиков И. Л., Пазельская А.Г., Соловьев A.H.
Новизна настоящего исследования заключается в попытке создания компьютерной программы-классификатора русскоязычных текстовых данных по критерию класса эмоций, которые вербализуются в тексте.
Практическая значимость настоящего исследования заключается в реализации разработанной программы в различных целях: автоматический подбор подходящего музыкального сопровождения для любого текста на русском языке; создание комфортной среды для обучения; прививание интереса к чтению и так далее.
Апробация результатов исследования: Результаты исследования были представлены в форме доклада на международной конференции «Second International Workshop on Language, Music and Computing» (17.04.2017, г. Санкт-Петербург). Была отправлена на публикацию статья: Кузлин М.К. Использование сентимент-анализа для синхронизации саундтрека и эмоциональной тональности текста // Siberia Lingua. Красноярск. 2018.
Структура работы. Основная часть диссертации состоит из двух глав. В первой главе «Теоретические предпосылки разработки алгоритма сентимент-анализа для ранжированной классификации» определены основные термины и методы, необходимые для выполнения практической части исследования. Во второй главе «особенности эмоциональных классов данных из художественных текстов» представлен анализ текстовых фрагментов и описан процесс реализации необходимого программного обеспечения. В заключении представлены выводы исследования. В список использованных источников включено 60 источника.
Целью данной научно-исследовательской работы явилась разработка компьютерной программы для синхронизации музыкального сопровождения и эмоциональной тональности текста на электронном носителе на основе использования принципов сентимент-анализа текста и классификации эмоций «Куб Лёвхейма».
Необходимость исследования была обусловлена тем, что на данный момент проектов по созданию специального классификатора, способного автоматически определять точную эмоцию, отражённую в тексте, пока немного, а для русскоязычных данных - нет. Также одной из целей стала разработка программы автоматического подбора саундтрека для русскоязычного текста.
Так, в первой главе настоящей научно -исследовательской работы были рассмотрены и изучены труды отечественных и зарубежных ученых в сферах, касающихся сентимент-анализа как направление прикладной лингвистики. Проанализированы принципы и методы формирования обучающей выборки для технологии машинного обучения.
Мы убедились, что точность сентимент-анализа определяется выбранным набором средств классификации обучающей выборки. Следует упомянуть, что художественный текст имеет воздействующую функцию на читателя. Также в художественном тексте реализованы языковые единицы всех уровней (от фонемы до предложения), следовательно, наличие языковых единиц всех уровней позволит нам найти подходящие языковые маркеры для каждой эмоциональной группы, что доказывает правильность выбора художественного текста как особого источника данных для формирования обучающей выборки.
Для повышения точности исследования, мы взяли за основу классификацию эмоций Г. Лёвхейма. Он установил, что, хотя сами по себе эмоциональные состояния, являясь функцией от адаптивных систем человеческого организма, порождаются в лимбической системе и миндалевидном теле головного мозга, но дальнейший сигнал об эмоции активируется и распространяется на другие отделы головного мозга благодаря действию трех моноаминов: серотонина, допамина и норадреналина.
В практической части настоящего исследования мы сформировали принципы формирования обучающей выборки.
В качестве источника обучающей выборки, мы выбрали художественное произведение - Дж. К. Роулинг «Случайная Вакансия», К. Тойбин «Бруклин», С. Чбоски «Хорошо быть тихоней», А. Асиман «Зови меня своим именем». Выбор был обусловлен тем, что после просмотра рецензий на данные книги, мы выяснили, что текст вызывает сильный эмоциональный отклик у читателей, создавая максимально эмоциональное состояние.
Затем, основываясь на уже выбранной восьмеричной классификации эмоций, мы предложили 35 экспертам оценить коллекцию текстовых фрагментов, приписав каждому из них определенную эмоцию из восьми предложенных. После этого, нами были созданы текстовые корпуса для выявления необходимых языковых маркеров для каждой эмоции для последующей разработки теоретических принципов базы данных «языковой маркер - имя эмоции - тег Last.fm.
Для технической реализации сентимент-анализа будет использовано машинное обучение с учителем. Обучение с учителем - один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью уже созданной обучающей выборки. Далее, будет произведена тестовая выборка, выборка, по которой оценивается качество построенной программы для анализа. Для получения точной оценки созданной программы, появится необходимость провести третью, проверочную выборку, что позволит нам в полной мере оценить качество анализа созданной программы.
Говоря о будущих перспективах данного научного исследования, интересным продолжением работы может стать более детальная настройка и дальнейшая реализация программы для синхронизации саундтрека и тональности текста.
Подводя итоги вышесказанному необходимо отметить, что создание программы для анализа тональности текста является сложной задачей, но вполне посильной, если имеются данные для обучения и заранее определена тема. При использовании машинного обучения важно тестировать разные параметры, чтобы подобрать те, которые работают лучше на тестовых данных.
1. Азимов Э.Г., Щукин А.Н. Новый словарь методических терминов и понятий (теория и практика обучения языкам). М.: ИКАР. 2009. 448 с.
2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. 471 с.
3. Алифанова О.Г., Исаев, Павлова А.В., Рыхлова О.С., Турлова Е.В., Хрущева О.А., Щербакова М.В. Перспективные научные исследования в языкознании: колл. монография. М.: Флинта: Наука, 2012. 200 с.
4. Антонова А.С., Соловьев Ю.А. Использование метода условных случайных полей для обработки текстов на русском языке // Компьютерная лингвистика и интеллектуальные технологии: «Диалог-2013». М.: РГГУ, 2013. 44 с.
5. Арнольд И.В. Основы научных исследований в лингвистике. М.: Высшая школа, 2011. 140 с.
6. Бабенко Л.Г., Казарин Ю.В. Лингвистический анализ художественного текста: учебник; практикум. М.: Флинта, 2009. 496 с.
7. Баранов А.Н. Лингвистическая экспертиза текста: Теоретические основания и практика. М.: Флинта: Наука, 2007. 592 с.
8. Болотнова Н.С. Филологический анализ текста: Учебное пособие. М.: Флинта: Наука, 2009. 520 с.
9. Виноградов В.В. О языке художественной литературы. М.: Гослитиздат, 1959. 655 с.
10. Воронцов К.В. Математические методы обучения по
прецедентам. М.: ВМК МГУ и МФТИ, 2011. С. 23-54.
11. Гвишиани Н.Б. Язык научного общения. Вопросы методологии. М.: ЛКИ, 2008. 280 с.
12. Гельгардт Р.Р. Исследование стиля художественной речи. М., 2011. 203 с.
13. Голованова Д.А., Кудинова Р.И., Михайлова Е.В. Русский язык и культура речи. Краткий курс. М.: Окей-книга, 2008. 144 с.
14. Голуб И.Б. Стилистика русского языка. М.: Рольф, 2001. 448 с.
15. Денисенко В.Н., Чеботарёва Е.Ю. Современные
психолингвистические методы анализа речевой коммуникации. М.: РУДН, 2008. 258 с.
16. Ермаков А.Е., Киселев C.JI. Лингвистическая модель для компьютерного анализа тональности публикаций СМИ. языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». М.: Изд-во РГГУ, 2011. С. 282-285.
17. Земская Е.А. Русская разговорная речь: Лингвистический анализ, проблемы обучения. М.: Наука: Флинта, 2006. 240 с.
18. Клековкина М.В., Котельников Е.В., Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // RCDL-2012, Переславль-Залесский: Изв-во ИПС РАН, 2012. С. 135-141.
19. Кожин А.Н. Функциональные типы русской речи. М.: Высшая школа, 1982. 223 с.
20. Кожина М.Н. Стилистика русского языка. М.: Просвещение, 1987. 464 с.
21. Колмогорова А.В., Калинин А. А., Маликова А.В.
Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. Владикавказ: Изд-во СОГУ, 2018. 1(29) С. 139-148.
22. Лукашевич H.B., Четверкин И.И. Извлечение и использование оценочных слов в задаче классификации отзывов на три класса, Вычислительные методы и программирование // Вычислительные методы и программирование. М.: НИВЦ МГУ, 2011. С. 73-81.
23. Меньшиков И. Л., Анализ тональности текста на русском языке при помощи графовых моделей. // Концеренция УРФУ. Екатеринбург: Изд-во УРФУ, 2012. C. 145-151.
24. Мерков А.Б. Распознавание образов. Введение в методы статистического обучения. М.: Едиториал УРСС, 2011. 260 с.
25. Обучаем компьютер чувствам (sentiment analysis) [Электронный
ресурс] // Хабрхабр https://habrahabr.ru/post/149605/(дата обращения: 25.05.17).
26. Пазельская А.Г., Соловьев A.H. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». М.: Изд-во РГГУ, 2011. С. 574-586.
27. Розенталь Д.Э. Практическая стилистика русского языка. М.: Айрис, 1997. 381 с.
28. Рузавин Г.И. Методология научного познания: Учеб. пособие для вузов. М.: ЮНИТИ-ДАНА, 2012. 287 с.
29. Сентимент анализ текста [Электронный ресурс] // Хабрхабр https://habrahabr.ru/company/palitrumlab/blog/262595/(дата обращения: 25.05.17).
30. Усталов Д.И. Извлечение терминов из русскоязычных текстов при помощи графовых моделей. Екатеринбург: УРФУ, 2012. 12 с.
31. Хроленко А.Т., Денисов А.В. Современные информационные технологии гуманитария: Практ. руководство. М.: Флинта: Наука, 2007. 128с.
32. Четвёркин И.Ч. Автоматизированное формирование базы знаний для задачи анализа мнений: автореф. дис. ... канд. физ-мат. наук: 05.12.13 Москва 2013, 147 с.
33. Analyze and predict sentiment with machine learning [ Электронный ресурс] // MathWorks https://goo.gl/9f6Cko(дата обращения: 17.10.17).
34. Anstey M.L, Rogers S.M., Ott S.R., Burrows M., Simpson S.J. Serotonin mediates behavioral gregarization underlying swarm formation in desert locusts // Science Journal, 2009. P. 27-30.
35. Aue A., Gamon M. Customizing sentiment classifiers to new domains: A case study // Proceedings of recent advances in natural language processing. Varna: RANLP, 2005. P. 198-205.
36. Aue A., Gamon M. Customizing sentiment classifiers to new domains: a case study // Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP). 2005. P. 234-240.
37. Banea C., Mihalcea R., Wiebe J. Multilingual subjectivity: are more languages better? // C.-R. Huang, D. Jurafsky (Eds.) COLING 2010. 23 rd International Conference on Computational Linguistics. Proceedings of the Conference. 2010. Vol.2. P. 28-36.
38. Big Data And Power Of Sentiment [Электронный ресурс] // Forbes https://goo.gl/tWSiqL(дата обращения: 18.10.17).
39. Boiy E., Marie-Francine M. A machine learning approach to sentiment analysis in multilingual web texts // Inf Retrieval. 2009. № 12(5). P. 526-558.
40. Bollen J., Mao H., Zeng X. Twitter mood predicts the stock market // Journal of Computational Science, 2011. 1 (2), P. 1-8
41. Ceron L., Curini S., Iacus S., Porro G. Every tweet counts? How sentiment analysis of social media can improve our knowledge of citizens political preferences with an application to Italy and France // New Media Soc. 2014. №16 (2). P. 340-358.
42. Chatzakou D., Vakali A., Kafesios K. Detecting variation of emotions in online activities // Expert Systems with Applications: An International Journal. 2017. 89. P. 318-332.
43. Dennis R.L., Chen Z.Q., Cheng H.W. Serotonergic mediation of aggression in high and low aggressive chicken strains // Poult Sci, 2008. P. 12-20.
44. Hall M. A. Correlation-based feature selection for machine learning. Waikato: The University of Waikato, 1999. 179 p.
45. Introduction to Sentiment Analysis [Электронный ресурс] // Algorithmia https://goo.gl/5EEvvu(дата обращения: 15.10.17).
46. Jakob N., Gurevych I. Extracting opinion targets in a single-and cross¬domain setting with conditional random fields // Proceedings of Conference on Empirical Methods in Natural Language Processing, 2010. P. 1035-1045.
47. Lovheim H. A new three-dimensional model for emotions and monoamine neurotransmitters // Medical Hypotheses. 2012. 78. P. 341-348.
48. Lu Y., Castellanos M., Dayal U. Automatic construction of a context- aware sentiment lexicon: an optimization approach // Proceedings of the 20th international conference on World Wide Web, ACM. 2011. P. 347 -356.
49. Maas A., Daly R., Pham P. Learning word vectors for sentiment analysis // Proceedings of the 49th annual meeting of the association for computational Linguistics. Portland: HLT, 2011. P. 142-150.
50. Machine Learning For Begginers [Электронный ресурс] // Kaggle https://goo.gl/YzAZqe(дата обращения: 14.10.17).
51. Machine Learning For Software Engineers [Электронный ресурс] // GitHub https://goo.gl/7YvKtc(дата обращения: 14.10.17).
52. Pang B., Lee L. Thumbs up? Sentiment Classification using Machine Learning Techniques // EMNLP, 2002. P. 79-86.
53. Pang B., Lee L. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts // ACL, 2004. P. 271-278.
54. Pang B., Lee L. Opinion Mining and Sentiment Analysis // RETR, 2008. P. 1-135.
55. Rules of machine learning [Электронный ресурс] //
martin.zinkviech.orghttps://goo.gl/bPmm3B(дата обращения: 16.10.17).
56. Sentiment Analysis: Concept, Analysis and Aplications
[Электронный ресурс] // Towards Data Science https://goo.gl/8Xp6Dx(дата обращения: 19.10.17).
57. Snyder B., Barzilay R. Multiple Aspect Ranking using the Good GriefAlgorithm // New Orleans: HLT-NAACL, 2007. P. 300-307.
58. Twitter Sentiment Analysis using Python [Электронный ресурс] // GeeksForGeeks https://goo.gl/CB4oJ7(дата обращения: 19.10.17).
59. Wiebe J., Riloff E. Creating subjective and objective sentence classifiers from unannotated texts // Computational Linguistics and Intelligent Text Processing. Berlin: Springer, 2005. 486 p.
60. Witten I.H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) // Burlington: Morgan Kaufmann, 2005. P. 56¬63.