Проблема разработки системы оценки тональности сообщений на украинском языке
|
Введение ............................................................................................................. 3
Глава 1. Обзор предметной области ............................................................. 6
1.1 Применение анализа тональности ...............................................................................................6
1.2 Основные понятия ..........................................................................................................................7
1.3 Задачи анализа тональности ...................................................................................................... 11
1.4 Проблемы автоматического определения тональности ....................................................... 14
1.5 Выводы к главе 1.......................................................................................................................... 16
Глава 2. Методы автоматического определения тональности ............. 17
2.1 Основные подходы ....................................................................................................................... 17
2.2 Методы, основанные на обучении с учителем ........................................................................ 19
2.3 Выводы к главе 2.......................................................................................................................... 25
Глава 3. SentiStrength как инструмент для анализа тональности ....... 27
3.1. Предпосылки создания SentiStrength ...................................................................................... 27
3.2. Методы SentiStrength в системе других подходов к анализу тональности ...................... 30
3.3. Источник данных для создания SentiStrength ....................................................................... 33
3.4. Описание алгоритма SentiStrength .......................................................................................... 36
3.5 Выводы к главе 3.......................................................................................................................... 39
Глава 4. Настройка системы SentiStrength на украинский язык ........ 40
4.1. Обзор предыдущих работ по анализу тональности текстов на украинском языке ....... 40
4.2. Файлы исходных данных системы SentiStrength .................................................................. 41
4.3. Создание словарей для украинского языка ........................................................................... 43
4.4. Создание золотого стандарта и обучение программы.......................................................... 44
4.5 Выводы к главе 4.......................................................................................................................... 52
Заключение ...................................................................................................... 54
Список литературы ....................................................................................... 56
Приложение 1. Исходные данные программы SentiStrength для
украинского языка......................................................................................... 63
Приложение 2. Примеры оцененных программой SentiStrength твитов 72
Глава 1. Обзор предметной области ............................................................. 6
1.1 Применение анализа тональности ...............................................................................................6
1.2 Основные понятия ..........................................................................................................................7
1.3 Задачи анализа тональности ...................................................................................................... 11
1.4 Проблемы автоматического определения тональности ....................................................... 14
1.5 Выводы к главе 1.......................................................................................................................... 16
Глава 2. Методы автоматического определения тональности ............. 17
2.1 Основные подходы ....................................................................................................................... 17
2.2 Методы, основанные на обучении с учителем ........................................................................ 19
2.3 Выводы к главе 2.......................................................................................................................... 25
Глава 3. SentiStrength как инструмент для анализа тональности ....... 27
3.1. Предпосылки создания SentiStrength ...................................................................................... 27
3.2. Методы SentiStrength в системе других подходов к анализу тональности ...................... 30
3.3. Источник данных для создания SentiStrength ....................................................................... 33
3.4. Описание алгоритма SentiStrength .......................................................................................... 36
3.5 Выводы к главе 3.......................................................................................................................... 39
Глава 4. Настройка системы SentiStrength на украинский язык ........ 40
4.1. Обзор предыдущих работ по анализу тональности текстов на украинском языке ....... 40
4.2. Файлы исходных данных системы SentiStrength .................................................................. 41
4.3. Создание словарей для украинского языка ........................................................................... 43
4.4. Создание золотого стандарта и обучение программы.......................................................... 44
4.5 Выводы к главе 4.......................................................................................................................... 52
Заключение ...................................................................................................... 54
Список литературы ....................................................................................... 56
Приложение 1. Исходные данные программы SentiStrength для
украинского языка......................................................................................... 63
Приложение 2. Примеры оцененных программой SentiStrength твитов 72
Анализ тональности текста (сентимент-анализ, англ. Sentiment analysis) —
класс методов анализа текста в компьютерной лингвистике, предназначенный для
автоматизированного выявления в текстах эмоционально окрашенной лексики и
эмоциональной оценки авторов относительно объектов в тексте [58].
Мнение окружающих на протяжении многих веков влияло на различные
сферы деятельности человека. Однако с распространением интернета это влияние
значительно укрепилось. Раньше людям предоставлялась возможность узнать
мнение лишь у ограниченного числа собеседников. Теперь же с появлением
интернет-магазинов, блогов, социальных сетей, специализированных ресурсов
(«Яндекс.Маркет», «Epinions.com», «Кинопоиск») пользователи могут обращаться
за мнением к большой аудитории.
Крупные компании и организации также активно используют подобные
ресурсы для исследования конкурентной среды, наблюдения за состоянием рынка
с целью его оценки.
Социальные сети предоставляют исследователям широкое поле для
проведения детального анализа мнений пользователей. К примеру, американский
проект Pulse of the Nation [61] был создан для того, чтобы в течение дня
отслеживать настроение граждан, пользующихся соцсетью Twitter.
«Твиттер» (Twitter) — одна из самых популярных социальных сетей для
публичного обмена сообщениями. По состоянию на февраль 2016 года сервис
насчитывает около 305 млн активных пользователей. Сообщения настроены на 140
символов для совместимости с SMS-сообщениями.
Целью данной работы является выявление и анализ проблем, связанных с
разработкой системы оценки тональности текстов на украинском языке на примере
системы SentiStrength. Программа SentiStrength, созданная как часть проекта
CyberEmotions, автоматически производит анализ тональности коротких текстов.
Она основана на использовании словаря эмоциональной лексики и
корректирующих правил.
Для достижения поставленной цели перед нами были поставлены следующие
теоретические и практические задачи:
1) изучить применение, задачи и проблемы анализа тональности, а также
основные понятия, связанные с ним;
2) рассмотреть основные подходы для решения задач сентимент-анализа;
3) описать основные принципы работы инструмента SentiStrength для анализа тональности;
4) провести настройку программы SentiStrength на украинский язык;
5) оценить эффективность работы программы для украинских текстов.
В работе мы использовали методы машинного обучения и анализа
тональности с использованием словарей эмоциональной и оценочной лексики
также. Словарь эмоциональных слов украинского языка создавался с помощью
экспертов и автоматически. Материалом исследования стала случайная выборка
коротких текстов на украинском языке из социальной сети твиттер объёмом 1200 сообщений.
Данная работа имеет большую практическую значимость, так как
результаты настройки программы SentiStrength могут быть использованы
разработчиками инструмента, что позволит исследователям аудитории носителей
украинского языка, а также различным компаниям и организациям использовать
данный продукт для анализа текстов на украинском языке.
Новизна работы определяется тем, что в мире пока не существует
доступных систем автоматической оценки тональности текстов на украинском языке.
Работа состоит из введения, четырёх глав, заключения, списка литературы и
двух приложений. В первой главе даётся подробный обзор предметной области. Во
второй главе рассматриваются различные методы определения тональности
текстов. В третьей главе подробно описывается работа программы SentiStrength, а
также приводятся предпосылки её создания. В четвертой главе работы описывается
процесс настройки программы на украинский язык и оценена эффективность системы.
класс методов анализа текста в компьютерной лингвистике, предназначенный для
автоматизированного выявления в текстах эмоционально окрашенной лексики и
эмоциональной оценки авторов относительно объектов в тексте [58].
Мнение окружающих на протяжении многих веков влияло на различные
сферы деятельности человека. Однако с распространением интернета это влияние
значительно укрепилось. Раньше людям предоставлялась возможность узнать
мнение лишь у ограниченного числа собеседников. Теперь же с появлением
интернет-магазинов, блогов, социальных сетей, специализированных ресурсов
(«Яндекс.Маркет», «Epinions.com», «Кинопоиск») пользователи могут обращаться
за мнением к большой аудитории.
Крупные компании и организации также активно используют подобные
ресурсы для исследования конкурентной среды, наблюдения за состоянием рынка
с целью его оценки.
Социальные сети предоставляют исследователям широкое поле для
проведения детального анализа мнений пользователей. К примеру, американский
проект Pulse of the Nation [61] был создан для того, чтобы в течение дня
отслеживать настроение граждан, пользующихся соцсетью Twitter.
«Твиттер» (Twitter) — одна из самых популярных социальных сетей для
публичного обмена сообщениями. По состоянию на февраль 2016 года сервис
насчитывает около 305 млн активных пользователей. Сообщения настроены на 140
символов для совместимости с SMS-сообщениями.
Целью данной работы является выявление и анализ проблем, связанных с
разработкой системы оценки тональности текстов на украинском языке на примере
системы SentiStrength. Программа SentiStrength, созданная как часть проекта
CyberEmotions, автоматически производит анализ тональности коротких текстов.
Она основана на использовании словаря эмоциональной лексики и
корректирующих правил.
Для достижения поставленной цели перед нами были поставлены следующие
теоретические и практические задачи:
1) изучить применение, задачи и проблемы анализа тональности, а также
основные понятия, связанные с ним;
2) рассмотреть основные подходы для решения задач сентимент-анализа;
3) описать основные принципы работы инструмента SentiStrength для анализа тональности;
4) провести настройку программы SentiStrength на украинский язык;
5) оценить эффективность работы программы для украинских текстов.
В работе мы использовали методы машинного обучения и анализа
тональности с использованием словарей эмоциональной и оценочной лексики
также. Словарь эмоциональных слов украинского языка создавался с помощью
экспертов и автоматически. Материалом исследования стала случайная выборка
коротких текстов на украинском языке из социальной сети твиттер объёмом 1200 сообщений.
Данная работа имеет большую практическую значимость, так как
результаты настройки программы SentiStrength могут быть использованы
разработчиками инструмента, что позволит исследователям аудитории носителей
украинского языка, а также различным компаниям и организациям использовать
данный продукт для анализа текстов на украинском языке.
Новизна работы определяется тем, что в мире пока не существует
доступных систем автоматической оценки тональности текстов на украинском языке.
Работа состоит из введения, четырёх глав, заключения, списка литературы и
двух приложений. В первой главе даётся подробный обзор предметной области. Во
второй главе рассматриваются различные методы определения тональности
текстов. В третьей главе подробно описывается работа программы SentiStrength, а
также приводятся предпосылки её создания. В четвертой главе работы описывается
процесс настройки программы на украинский язык и оценена эффективность системы.
Анализ тональности сообщений — это быстро развивающаяся область
компьютерной лингвистики, открывающая большие возможности для различных
лингвистических, социологических, психологических исследований и перспективы
в коммерческом применении.
Программа SentiStrength является эффективным инструментом для оценки
силы тональности коротких сообщений, написанных на неформальном языке.
Главной причиной достаточно успешной работы алгоритма является возможность
распознавания слов с ненормативной орфографией.
Результаты данной работы показали, что анализ сообщений из социальной
сети твиттер является довольно непростой задачей в силу изобретательности
пользователей в языковых выражениях, передачи тональности без использования
эмотивной лексики и различных взглядов на тональность экспертов, кодирующих
данные. Последнее означает, что, по-видимому, не существует истинно верной
классификации для многих сообщений.
В рамках данной работы были достигнуты следующие результаты:
1) была изучена предметная область анализа тональности текста, было
разобрано применение анализа, его задачи и основные методы;
2) был детально описан процесс работы систем программы SentiStrength;
3) был проведен процесс настройки данной системы на украинский язык,
улучшение работы алгоритма было достигнуто с применением методов
машинного обучения;
4) была проведена оценка результатов работы созданной системы.
При последней оценке работы программы были получены следующие
значения точности: 73% и 70% для положительных и отрицательных сообщений
соответственно при однозначном совпадении и 82% и 78% для совпадений с
разницей в единицу.
Результаты работы были представлены на студенческой конференции
филологического факультета СПбГУ в апреле 2017 года.
Полученные данные будут добавлены в систему SentiStrength университета
Уольверхэмптон в Великобритании со ссылкой на кафедру математической
лингвистики СПбГУ.
компьютерной лингвистики, открывающая большие возможности для различных
лингвистических, социологических, психологических исследований и перспективы
в коммерческом применении.
Программа SentiStrength является эффективным инструментом для оценки
силы тональности коротких сообщений, написанных на неформальном языке.
Главной причиной достаточно успешной работы алгоритма является возможность
распознавания слов с ненормативной орфографией.
Результаты данной работы показали, что анализ сообщений из социальной
сети твиттер является довольно непростой задачей в силу изобретательности
пользователей в языковых выражениях, передачи тональности без использования
эмотивной лексики и различных взглядов на тональность экспертов, кодирующих
данные. Последнее означает, что, по-видимому, не существует истинно верной
классификации для многих сообщений.
В рамках данной работы были достигнуты следующие результаты:
1) была изучена предметная область анализа тональности текста, было
разобрано применение анализа, его задачи и основные методы;
2) был детально описан процесс работы систем программы SentiStrength;
3) был проведен процесс настройки данной системы на украинский язык,
улучшение работы алгоритма было достигнуто с применением методов
машинного обучения;
4) была проведена оценка результатов работы созданной системы.
При последней оценке работы программы были получены следующие
значения точности: 73% и 70% для положительных и отрицательных сообщений
соответственно при однозначном совпадении и 82% и 78% для совпадений с
разницей в единицу.
Результаты работы были представлены на студенческой конференции
филологического факультета СПбГУ в апреле 2017 года.
Полученные данные будут добавлены в систему SentiStrength университета
Уольверхэмптон в Великобритании со ссылкой на кафедру математической
лингвистики СПбГУ.





