ИСПОЛЬЗОВАНИЕ СЕНТИМЕНТ-АНАЛИЗА ДЛЯ СИНХРОНИЗАЦИИ САУНДТРЕКА И ЭМОЦИОНАЛЬНОЙ ТОНАЛЬНОСТИ ТЕКСТА
|
ВВЕДЕНИЕ 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ПРЕДПОСЫЛКИ РАЗРАБОТКИ АЛГОРИТМА СЕНТИМЕНТ-АНАЛИЗА ДЛЯ РАНЖИРОВАННОЙ КЛАССИФИКАЦИИ 6
1.1. Сентимент-анализ как направление прикладной лингвистики 6
1.2. Принципы и методы формирования обучающей выборки для технологии
машинного обучения 9
1.3. Художественный текст как особый источник данных для обучающей
выборки 12
1.4. Классификация эмоций по Лёвхейму как основа выделения
эмоциональных классов текстовых данных 16
1.5. Дизайн программы-приложения для синхронизации саундтрека и
эмоциональной тональности текста 18
ВЫВОДЫ ПО ГЛАВЕ 1 21
ГЛАВА 2 ОСОБЕННОСТИ ЭМОЦИОНАЛЬНЫХ КЛАССОВ ДАННЫХ ИЗ ХУДОЖЕСТВЕННЫХ ТЕКСТОВ 22
2.1. Формирование обучающей выборки 22
2.2. Эмоциональный класс текстовых данных «Страх / Ужас (Fear / Terror),
Гнев / Ярость (Anger / Rage)» 24
2.3. Эмоциональный класс текстовых данных «Стыд /Унижение (Shame /
Humiliation), Грусть / Тоска (Distress / Anguish)» 30
2.4. Эмоциональный класс текстовых данных «Радость / Счастье (Enjoyment /
Joy), Интерес / Возбуждение (Interest / Excitement)» 36
2.5. Эмоциональный класс текстовых данных «Презрение / Отвращение
(Contempt / Disgust)», «Удивление (Surprise)» 42
2.6. Реализация программы-приложения для синхронизации саундтрека и
эмоциональной тональности текста: основные трудности и результаты 48
ВЫВОДЫ ПО ГЛАВЕ 2 52
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 56
ПРИЛОЖЕНИЕ А 62
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ПРЕДПОСЫЛКИ РАЗРАБОТКИ АЛГОРИТМА СЕНТИМЕНТ-АНАЛИЗА ДЛЯ РАНЖИРОВАННОЙ КЛАССИФИКАЦИИ 6
1.1. Сентимент-анализ как направление прикладной лингвистики 6
1.2. Принципы и методы формирования обучающей выборки для технологии
машинного обучения 9
1.3. Художественный текст как особый источник данных для обучающей
выборки 12
1.4. Классификация эмоций по Лёвхейму как основа выделения
эмоциональных классов текстовых данных 16
1.5. Дизайн программы-приложения для синхронизации саундтрека и
эмоциональной тональности текста 18
ВЫВОДЫ ПО ГЛАВЕ 1 21
ГЛАВА 2 ОСОБЕННОСТИ ЭМОЦИОНАЛЬНЫХ КЛАССОВ ДАННЫХ ИЗ ХУДОЖЕСТВЕННЫХ ТЕКСТОВ 22
2.1. Формирование обучающей выборки 22
2.2. Эмоциональный класс текстовых данных «Страх / Ужас (Fear / Terror),
Гнев / Ярость (Anger / Rage)» 24
2.3. Эмоциональный класс текстовых данных «Стыд /Унижение (Shame /
Humiliation), Грусть / Тоска (Distress / Anguish)» 30
2.4. Эмоциональный класс текстовых данных «Радость / Счастье (Enjoyment /
Joy), Интерес / Возбуждение (Interest / Excitement)» 36
2.5. Эмоциональный класс текстовых данных «Презрение / Отвращение
(Contempt / Disgust)», «Удивление (Surprise)» 42
2.6. Реализация программы-приложения для синхронизации саундтрека и
эмоциональной тональности текста: основные трудности и результаты 48
ВЫВОДЫ ПО ГЛАВЕ 2 52
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 56
ПРИЛОЖЕНИЕ А 62
Процесс достижения определенного эмоционального состояния читателем во время чтения и осмысления художественного текста может получить дополнительную стимуляцию при помощи соответствующего музыкального сопровождения текстовосприятия. В этом случае музыка играет ту же самую роль как саундтрек для фильмов, где звук создает дополнительный эффект к визуальным сценам.
Актуальность исследования состоит в том, что на данный момент проектов по созданию специального классификатора, способного автоматически определять точную эмоцию, отражённую в тексте, пока немного, а для русскоязычных данных - нет.
Гипотеза исследования: Процесс подбора саундтрека зачастую происходит вручную и основывается на тех эмоциях, которые присутствуют в определенном моменте. В данной работе мы хотим доказать, что подобный процесс возможно автоматизировать, прибегнув к имеющимся современным инструментам компьютерной лингвистики.
Целью нашего исследования стала разработка компьютерной программы для синхронизации музыкального сопровождения и эмоциональной тональности текста на электронном носителе на основе использования принципов сентимент-анализа текста и классификации эмоций «Куб Лёвхейма».
Задачи исследования:
1) с помощью информантов приписать эмоционально окрашенному фрагменту текста ту или иную эмоцию, согласно Кубу Лёвхейма;
2) при помощи корпусного менеджера Sketch Engine выявить языковые маркеры той или иной эмоции;
3) разработать теоретические принципы базы данных «языковой маркер - имя эмоции - тег Last.fm»
4) описать алгоритм синхронизации языкового маркера и имени эмоции;
5) проанализировать процесс реализации программы-приложения для синхронизации саундтрека и эмоциональной тональности текста
Материалом для исследования послужили: 1) отобранные фрагменты текстов из художественных произведений: Дж. К. Роулинг «Случайная Вакансия», К. Тойбин «Бруклин», С. Чбоски «Хорошо быть тихоней», А. Асиман «Зови меня своим именем»; 2) разработанный текстовый корпус, состоящий из 100 фрагментов, полученный при помощи системы «Sketch Engine».
Основными методами исследования в работе являются методы сплошной и специальной выборки, сравнительный метод, анкетирование и корпусное ориентирование.
Объект исследования: рассматриваются языковые маркеры эмоций, согласно классификации Лёвхейма, в художественном тексте.
Предмет исследования: возможность автоматической синхронизации языковых маркеров эмоции, художественного текста и тегов саундтреков в соответствующей базе данных.
Степень разработанности: выбранная тема в отечественной лингвистике исследовалась такими научными деятелями как Азимов Э.Г., Айвазян С. А., Алифанова О.Г., Арнольд И.В., Бабенко Л.Г., Баранов А.Н., Гельгардт Р.Р. Тональность текста и машинное обучение рассматривались такими учёными как Клековкина М.В., Котельников Е.В., Лукашевич H.B., Четверкин И.И., Меньшиков И. Л., Пазельская А.Г., Соловьев A.H.
Новизна настоящего исследования заключается в попытке создания компьютерной программы-классификатора русскоязычных текстовых данных по критерию класса эмоций, которые вербализуются в тексте.
Практическая значимость настоящего исследования заключается в реализации разработанной программы в различных целях: автоматический подбор подходящего музыкального сопровождения для любого текста на русском языке; создание комфортной среды для обучения; прививание интереса к чтению и так далее.
Апробация результатов исследования: Результаты исследования были представлены в форме доклада на международной конференции «Second International Workshop on Language, Music and Computing» (17.04.2017, г. Санкт-Петербург). Была отправлена на публикацию статья: Кузлин М.К. Использование сентимент-анализа для синхронизации саундтрека и эмоциональной тональности текста // Siberia Lingua. Красноярск. 2018.
Структура работы. Основная часть диссертации состоит из двух глав. В первой главе «Теоретические предпосылки разработки алгоритма сентимент-анализа для ранжированной классификации» определены основные термины и методы, необходимые для выполнения практической части исследования. Во второй главе «особенности эмоциональных классов данных из художественных текстов» представлен анализ текстовых фрагментов и описан процесс реализации необходимого программного обеспечения. В заключении представлены выводы исследования. В список использованных источников включено 60 источника.
Актуальность исследования состоит в том, что на данный момент проектов по созданию специального классификатора, способного автоматически определять точную эмоцию, отражённую в тексте, пока немного, а для русскоязычных данных - нет.
Гипотеза исследования: Процесс подбора саундтрека зачастую происходит вручную и основывается на тех эмоциях, которые присутствуют в определенном моменте. В данной работе мы хотим доказать, что подобный процесс возможно автоматизировать, прибегнув к имеющимся современным инструментам компьютерной лингвистики.
Целью нашего исследования стала разработка компьютерной программы для синхронизации музыкального сопровождения и эмоциональной тональности текста на электронном носителе на основе использования принципов сентимент-анализа текста и классификации эмоций «Куб Лёвхейма».
Задачи исследования:
1) с помощью информантов приписать эмоционально окрашенному фрагменту текста ту или иную эмоцию, согласно Кубу Лёвхейма;
2) при помощи корпусного менеджера Sketch Engine выявить языковые маркеры той или иной эмоции;
3) разработать теоретические принципы базы данных «языковой маркер - имя эмоции - тег Last.fm»
4) описать алгоритм синхронизации языкового маркера и имени эмоции;
5) проанализировать процесс реализации программы-приложения для синхронизации саундтрека и эмоциональной тональности текста
Материалом для исследования послужили: 1) отобранные фрагменты текстов из художественных произведений: Дж. К. Роулинг «Случайная Вакансия», К. Тойбин «Бруклин», С. Чбоски «Хорошо быть тихоней», А. Асиман «Зови меня своим именем»; 2) разработанный текстовый корпус, состоящий из 100 фрагментов, полученный при помощи системы «Sketch Engine».
Основными методами исследования в работе являются методы сплошной и специальной выборки, сравнительный метод, анкетирование и корпусное ориентирование.
Объект исследования: рассматриваются языковые маркеры эмоций, согласно классификации Лёвхейма, в художественном тексте.
Предмет исследования: возможность автоматической синхронизации языковых маркеров эмоции, художественного текста и тегов саундтреков в соответствующей базе данных.
Степень разработанности: выбранная тема в отечественной лингвистике исследовалась такими научными деятелями как Азимов Э.Г., Айвазян С. А., Алифанова О.Г., Арнольд И.В., Бабенко Л.Г., Баранов А.Н., Гельгардт Р.Р. Тональность текста и машинное обучение рассматривались такими учёными как Клековкина М.В., Котельников Е.В., Лукашевич H.B., Четверкин И.И., Меньшиков И. Л., Пазельская А.Г., Соловьев A.H.
Новизна настоящего исследования заключается в попытке создания компьютерной программы-классификатора русскоязычных текстовых данных по критерию класса эмоций, которые вербализуются в тексте.
Практическая значимость настоящего исследования заключается в реализации разработанной программы в различных целях: автоматический подбор подходящего музыкального сопровождения для любого текста на русском языке; создание комфортной среды для обучения; прививание интереса к чтению и так далее.
Апробация результатов исследования: Результаты исследования были представлены в форме доклада на международной конференции «Second International Workshop on Language, Music and Computing» (17.04.2017, г. Санкт-Петербург). Была отправлена на публикацию статья: Кузлин М.К. Использование сентимент-анализа для синхронизации саундтрека и эмоциональной тональности текста // Siberia Lingua. Красноярск. 2018.
Структура работы. Основная часть диссертации состоит из двух глав. В первой главе «Теоретические предпосылки разработки алгоритма сентимент-анализа для ранжированной классификации» определены основные термины и методы, необходимые для выполнения практической части исследования. Во второй главе «особенности эмоциональных классов данных из художественных текстов» представлен анализ текстовых фрагментов и описан процесс реализации необходимого программного обеспечения. В заключении представлены выводы исследования. В список использованных источников включено 60 источника.
Целью данной научно-исследовательской работы явилась разработка компьютерной программы для синхронизации музыкального сопровождения и эмоциональной тональности текста на электронном носителе на основе использования принципов сентимент-анализа текста и классификации эмоций «Куб Лёвхейма».
Необходимость исследования была обусловлена тем, что на данный момент проектов по созданию специального классификатора, способного автоматически определять точную эмоцию, отражённую в тексте, пока немного, а для русскоязычных данных - нет. Также одной из целей стала разработка программы автоматического подбора саундтрека для русскоязычного текста.
Так, в первой главе настоящей научно -исследовательской работы были рассмотрены и изучены труды отечественных и зарубежных ученых в сферах, касающихся сентимент-анализа как направление прикладной лингвистики. Проанализированы принципы и методы формирования обучающей выборки для технологии машинного обучения.
Мы убедились, что точность сентимент-анализа определяется выбранным набором средств классификации обучающей выборки. Следует упомянуть, что художественный текст имеет воздействующую функцию на читателя. Также в художественном тексте реализованы языковые единицы всех уровней (от фонемы до предложения), следовательно, наличие языковых единиц всех уровней позволит нам найти подходящие языковые маркеры для каждой эмоциональной группы, что доказывает правильность выбора художественного текста как особого источника данных для формирования обучающей выборки.
Для повышения точности исследования, мы взяли за основу классификацию эмоций Г. Лёвхейма. Он установил, что, хотя сами по себе эмоциональные состояния, являясь функцией от адаптивных систем человеческого организма, порождаются в лимбической системе и миндалевидном теле головного мозга, но дальнейший сигнал об эмоции активируется и распространяется на другие отделы головного мозга благодаря действию трех моноаминов: серотонина, допамина и норадреналина.
В практической части настоящего исследования мы сформировали принципы формирования обучающей выборки.
В качестве источника обучающей выборки, мы выбрали художественное произведение - Дж. К. Роулинг «Случайная Вакансия», К. Тойбин «Бруклин», С. Чбоски «Хорошо быть тихоней», А. Асиман «Зови меня своим именем». Выбор был обусловлен тем, что после просмотра рецензий на данные книги, мы выяснили, что текст вызывает сильный эмоциональный отклик у читателей, создавая максимально эмоциональное состояние.
Затем, основываясь на уже выбранной восьмеричной классификации эмоций, мы предложили 35 экспертам оценить коллекцию текстовых фрагментов, приписав каждому из них определенную эмоцию из восьми предложенных. После этого, нами были созданы текстовые корпуса для выявления необходимых языковых маркеров для каждой эмоции для последующей разработки теоретических принципов базы данных «языковой маркер - имя эмоции - тег Last.fm.
Для технической реализации сентимент-анализа будет использовано машинное обучение с учителем. Обучение с учителем - один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью уже созданной обучающей выборки. Далее, будет произведена тестовая выборка, выборка, по которой оценивается качество построенной программы для анализа. Для получения точной оценки созданной программы, появится необходимость провести третью, проверочную выборку, что позволит нам в полной мере оценить качество анализа созданной программы.
Говоря о будущих перспективах данного научного исследования, интересным продолжением работы может стать более детальная настройка и дальнейшая реализация программы для синхронизации саундтрека и тональности текста.
Подводя итоги вышесказанному необходимо отметить, что создание программы для анализа тональности текста является сложной задачей, но вполне посильной, если имеются данные для обучения и заранее определена тема. При использовании машинного обучения важно тестировать разные параметры, чтобы подобрать те, которые работают лучше на тестовых данных.
Необходимость исследования была обусловлена тем, что на данный момент проектов по созданию специального классификатора, способного автоматически определять точную эмоцию, отражённую в тексте, пока немного, а для русскоязычных данных - нет. Также одной из целей стала разработка программы автоматического подбора саундтрека для русскоязычного текста.
Так, в первой главе настоящей научно -исследовательской работы были рассмотрены и изучены труды отечественных и зарубежных ученых в сферах, касающихся сентимент-анализа как направление прикладной лингвистики. Проанализированы принципы и методы формирования обучающей выборки для технологии машинного обучения.
Мы убедились, что точность сентимент-анализа определяется выбранным набором средств классификации обучающей выборки. Следует упомянуть, что художественный текст имеет воздействующую функцию на читателя. Также в художественном тексте реализованы языковые единицы всех уровней (от фонемы до предложения), следовательно, наличие языковых единиц всех уровней позволит нам найти подходящие языковые маркеры для каждой эмоциональной группы, что доказывает правильность выбора художественного текста как особого источника данных для формирования обучающей выборки.
Для повышения точности исследования, мы взяли за основу классификацию эмоций Г. Лёвхейма. Он установил, что, хотя сами по себе эмоциональные состояния, являясь функцией от адаптивных систем человеческого организма, порождаются в лимбической системе и миндалевидном теле головного мозга, но дальнейший сигнал об эмоции активируется и распространяется на другие отделы головного мозга благодаря действию трех моноаминов: серотонина, допамина и норадреналина.
В практической части настоящего исследования мы сформировали принципы формирования обучающей выборки.
В качестве источника обучающей выборки, мы выбрали художественное произведение - Дж. К. Роулинг «Случайная Вакансия», К. Тойбин «Бруклин», С. Чбоски «Хорошо быть тихоней», А. Асиман «Зови меня своим именем». Выбор был обусловлен тем, что после просмотра рецензий на данные книги, мы выяснили, что текст вызывает сильный эмоциональный отклик у читателей, создавая максимально эмоциональное состояние.
Затем, основываясь на уже выбранной восьмеричной классификации эмоций, мы предложили 35 экспертам оценить коллекцию текстовых фрагментов, приписав каждому из них определенную эмоцию из восьми предложенных. После этого, нами были созданы текстовые корпуса для выявления необходимых языковых маркеров для каждой эмоции для последующей разработки теоретических принципов базы данных «языковой маркер - имя эмоции - тег Last.fm.
Для технической реализации сентимент-анализа будет использовано машинное обучение с учителем. Обучение с учителем - один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью уже созданной обучающей выборки. Далее, будет произведена тестовая выборка, выборка, по которой оценивается качество построенной программы для анализа. Для получения точной оценки созданной программы, появится необходимость провести третью, проверочную выборку, что позволит нам в полной мере оценить качество анализа созданной программы.
Говоря о будущих перспективах данного научного исследования, интересным продолжением работы может стать более детальная настройка и дальнейшая реализация программы для синхронизации саундтрека и тональности текста.
Подводя итоги вышесказанному необходимо отметить, что создание программы для анализа тональности текста является сложной задачей, но вполне посильной, если имеются данные для обучения и заранее определена тема. При использовании машинного обучения важно тестировать разные параметры, чтобы подобрать те, которые работают лучше на тестовых данных.



