📄Работа №127845

Тема: АВТОМАТИЧЕСКОЕ ПОПОЛНЕНИЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННЫХ ТОНАЛЬНЫХ СЛОВАРЕЙ (НА МАТЕРИАЛЕ ОТЗЫВОВ О БАНКОВСКИХ ОРГАНИЗАЦИЯХ)

📝

Тип работы Магистерская диссертация

📚

Предмет Лингвистика

📄

Объем: 81 листов

📅

Год: 2017

👁️

5500 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Глава I. Автоматический анализ тональности как область прикладной лингвистики 5
1.1. Автоматический анализ тональности в современном мире 5
1.2. Задачи анализа тональности 6
1.3. Виды классификации тональности 8
1.4. Проблемы автоматического определения тональности 9
1.5. Методы определения тональности текстов 11
1.6. Обзор работ по автоматическому составлению тональных словарей 16
1.7. Выводы к главе 1 21
Глава II. Разработка системы автоматического пополнения тональных
словарей для банковской сферы 23
2.1. Постановка задачи и описание алгоритма 23
2.2. Инструменты и технологии 26
2.3. Реализация алгоритма 32
2.4. Оценка работы алгоритма 40
2.5. Выводы к главе II 44
Заключение 46
Список использованной литературы 49
Приложение 1. Словарь положительно окрашенных слов, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 54
Приложение 2. Словарь отрицательно окрашенных слов, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 61
Приложение 3. Словарь отрицательно окрашенных словосочетаний, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 72
Приложение 4. Словарь положительно окрашенных словосочетаний, выделенных с помощью алгоритма, со значениями «Хи-квадрат» 76

📖 Введение

С развитием интернета и появлением социальных сетей пользователи получили возможность выражать свое мнение. Это мнение может быть относительно услуги или товара, фильма или книги, компании или политического деятеля. Возникла потребность обрабатывать огромные объемы информации для определения отношения пользователей к тому или иному объекту. Однако, количество отзывов достигает десятков тысяч, и обработка отзывов вручную оказывается невозможной. В связи с этим широкое распространение получили автоматизированные подходы к анализу тональности (sentiment analysis).
Цель работы - разработка и реализация алгоритма автоматического пополнения предметно-ориентированных тональных словарей.
В соответствии с поставленной целью решаются следующие задачи:
- изучить литературу, посвященную анализу тональности;
- рассмотреть существующие методы анализа тональности;
- рассмотреть методы пополнения тональных словарей;
- разработать алгоритм автоматического пополнения тональных словарей для банковской сферы;
- применить полученный алгоритм и оценить качество работы алгоритма.
Актуальность работы. В последнее время большое внимание направлено на решение задачи анализа тональности в различных предметных областях. Автоматизированные подходы к анализу тональности могут быть полезны как для государственных органов и политиков, так и для компаний и простых пользователей. Одной из важнейших задач для анализа тональности является создание словарей оценочных слов.
Многие исследователи создают словари общеупотребительных оценочных слов. Однако известно, что в разных предметных областях могут применяться достаточно разные наборы оценочных выражений. Так, например, одно и то же слово может выражать противоположные тональности: «The battery life is long» (Батарея работает долго - положительная тональность) и «The time taken to focus is long» (Долго фокусируется - отрицательная тональность). Необходимость разработки алгоритма автоматического пополнения предметно-ориентированных тональных словарей обусловливает актуальность данной работы.
Научная новизна работы заключается в обращении к ранее мало изученной предметной области - тональным словарям банковской сферы.
Методы исследования. В качестве основных методов исследования следует назвать описательный метод, статистический метод и метод машинного обучения.
Практическая значимость данной работы состоит в том, что разработанный алгоритм можно применять для извлечения тональных словарей для других предметных областей, а также использовать его для маркетинговых исследований.
Материалом для исследования стали отзывы пользователей о банковских организациях, собранные на сайте banki.ru. Объем корпуса - 2500 отзывов.

✅ Заключение

В первой главе мы рассмотрели предметную область анализа тональности, обозначили основные задачи, которые могут решаться в рамках анализа тональности, и основные проблемы, возникающие при анализе отзывов. Были выделены основные подходы сентимент-анализа: подход, основанный на словарях и на правилах, и подход, основанный на машинном обучении (с учителем и без учителя), рассмотрели достоинства и недостатки каждого подхода. Затем мы выполнили обзор работ, посвященных автоматическому составлению тональных словарей.
Во второй главе мы описали разработку и реализацию алгоритма по автоматическому пополнению тональных словарей для банковской сферы.
Основные шаги реализации алгоритма включали в себя формирование двух подкорпусов: текстов с описаниями достоинств и текстов с описаниями недостатков; отбор слов-кандидатов на включение в тональные словари на основе полученных подкорпусов; заполнение тональных словарей на основе проведенного анализа слов и тональных конструкций; оценка работы алгоритма на основе метрик полноты и точности с использованием кросс-валидации.
В качестве языка разработки был выбран Python в связи с наличием библиотек, наиболее подходящих для реализации алгоритма по функционалу, затрачиваемой памяти и скорости выполнения. Для реализации алгоритма использовались библиотеки Pymorphy2 (библиотека для морфологического анализа), Codecs (библиотека, осуществляющая связь между интерпретатором и файловой системой операционной системы), Math (работа с математическими функциями).
В качестве основного критерия анализа распределения слов по тональным словарям была выбрана оценка корреляции двух случайных событий: «слово содержится в отзыве» и «отзыв описывает недостатки/достоинства». Для оценки корреляции мы построили таблицы сопряженности и использовали критерия согласия Пирсона («Хи-квадрат»).
Затем были эмпирически выбраны пороги значений для полученных списков слов и получены словари тонально окрашенных прилагательных, наречий, существительных и глаголов (702 слова), а также словосочетаний (прилагательное + существительное, наречие + глагол, существительное + глагол и др.) (400 словосочетаний). Удалось выделить как общеупотребительные тонально окрашенные слова и словосочетания (грубый, отвратительный, доброжелательный, потрясающе, неприятная ситуация, страшный сон), так и относящиеся к банковской сфере (ипотечный кредит, приличный кэшбэк, минимальный процент, банкомат зажевал (карту), огромная комиссия).
Для оценки качества работы алгоритма был использован метод кросс-валидации, показавший достаточно высокие результаты: полнота (67,4%) и точность (78,4%). Также к достоинствам разработанного алгоритма можно отнести простоту реализации и его легкую адаптацию к другим предметным областям.
Были замечены также и некоторые недостатки:
- недостаточно большой исследуемый корпус для полного охвата лексики банковской сферы;
- использование оценок пользователей в отзывах для разбиения корпуса на 2 части (подкорпус достоинств и подкорпус недостатков) влечет большое количество шума.
В заключении стоит отметить, что во время проведения исследования были выявлены следующие факты:
1. На основе полученных словарей можно сделать вывод, что тонально окрашенная лексика банковской сферы, в основном, носит общеупотребительный характер (хороший, положительный, удобный, грубый).
2. В собранном корпусе оказалось, что количество отрицательных отзывов более, чем в 1,5 раза превышает количество положительных отзывов. Так, объем подкорпуса достоинств составил 833 отзыва, объем подкорпуса недостатков - 1345 отзывов. Это отражает негативный характер обслуживания в банковской сфере в целом.
Данный алгоритм в дальнейшем можно применить для автоматического составления предметно-ориентированных тональных словарей других предметных областей, а также его можно использовать для маркетинговых исследований банковских услуг.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Аптон Г. Анализ таблиц сопряженности. - М., 1982. - 143 с.
2. Дегтева А.В., Азарова И.В. Структура эмоционально
экспрессивного компонента в тезаурусе русского языка RussNet // Компьютерная лингвистика и интеллектуальные технологии: По
материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая — 2 июня 2013 г.). Вып. 12 (19). - М., 2013. - С. 200-211.
3. Клековкина М.В., Котельников Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные м методы и технологии, электронные коллекции» (RCDL-2012). - Переславль-Залесский, 2012. - С. 81-86.
4. Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н., Чимитова Е.В. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. — Новосибирск, 2011. - 888 с.
5. Морфологический анализатор pymorphy2: [Электронный
ресурс] / URL: https://pymorphy2.readthedocs.io.
6. Пазельская А., Соловьев А. Метод определения эмоций в текстах на русском языке // The international conference on computational linguistics and intellectual technologies “Dialogue 2011”. - М., 2011. - С. 510 - 522.
7. Протопопова Е.В., Букия Г.Т., Митрофанова О.А.
Автоматическое составление тонального словаря для процедур сентиментного анализа // Материалы XLV Международной филологической конференции 14-21 марта 2016 г. СПб., 2017 (в печати).
8. Россум Г., Дрейк Ф.Л.Дж., Откидач Д.С. Язык
программирования Python. 2001 г. - 454 c.
9. Степнов М.Н. Статистические методы обработки результатов механических испытаний: Справочник. - М., 1985. - С. 81-83.
10. Хохлова М.В. Анализ тональности. - СПб, 2016. - 11 с.
11. Цветков А.Д. Анализ тональности сообщений социальной сети Twitter. - Томск, 2013. - 31 с.
12. Шитиков В.К., Розенберг Г.С., Зинченко Т.Д. Таблицы сопряженности и “интервальная” математика. - Тольятти, 2003. - С. 259266.
13. Applications for Python: [Электронный ресурс]. URL:
http://www.python.org.
14. Arlot, Sylvain, Alain Celisse. A survey of cross-validation procedures for model selection // Statistics surveys 4. 2010. Pp. 40-79.
15. Bing Liu. Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing. 2010. 49 p.
16. Blinov P., Kotelnikov E. Using Distributed Representations for Aspect-Based Sentiment Analysis // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2014». № 13 (20). Vol. 2. 2014. Pp. 68-79.
... Всего источников –40.

🖼 Скриншоты

Выдержки из магистерской диссертации – АВТОМАТИЧЕСКОЕ ПОПОЛНЕНИЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННЫХ ТОНАЛЬНЫХ СЛОВАРЕЙ (НА МАТЕРИАЛЕ ОТЗЫВОВ О БАНКОВСКИХ ОРГАНИЗАЦИЯХ)

Содержание магистерской диссертации – АВТОМАТИЧЕСКОЕ ПОПОЛНЕНИЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННЫХ ТОНАЛЬНЫХ СЛОВАРЕЙ (НА МАТЕРИАЛЕ ОТЗЫВОВ О БАНКОВСКИХ ОРГАНИЗАЦИЯХ)

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210701)

Статьи

»» Все статьи

Вход в личный кабинет