📄Работа №77817

Тема: АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ

Характеристики работы

📝

Тип работы Бакалаврская работа

Предмет Информационные системы

📄

Объем: 57 листов

📅

Год: 2017

👁️

4340 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ 3
ГЛАВА 1. МЕТОДЫ ПРЕДСТАВЛЕНИЯ ТЕКСТА В ВИДЕ ВЕКТОРНОГО ПРОСТРАНСТВА 5
1.1 Bag of words 5
1.2 Word2Vec 7
1.3 Doc2Vec 11
ГЛАВА 2. МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТА 14
2.1 Рекуррентные нейронные сети 14
2.2 Random Forest 22
2.3 Support vector machine 24
ГЛАВА 3. ПРИМЕНЕНИЕ КЛАССИФИКАТОРОВ В АНАЛИЗЕ ТОНАЛЬНОСТИ ТЕКСТОВ 29
3.1 Условия проводимого эксперимента 29
3.2 Модели векторного представления пространства 31
3.3 Обучение и сравнение классификаторов 35
ЗАКЛЮЧЕНИЕ 41
СПИСОК ЛИТЕРАТУРЫ 42
ПРИЛОЖЕНИЕ 43
ЛИСТИНГ

📖 Введение

Актуальность. С развитием технологий в нашем мире интернет становился все популярнее. На данный момент почти половина всего мира имеют доступ к нему. Пользователи оставляют записи в блогах и на форумах, пишут комментарии на своих многочисленных страницах в социальных сетях, оставляют отзывы и рекомендации о товарах и магазинах. Все это привело к тому, что количество информации в интернете растет с каждым годом в геометрической прогрессии. Сейчас этой информации настолько много, что ее попросту невозможно обрабатывать, анализировать вручную. Поэтому придумывается множество способов, как автоматизировать все эти процессы. В связи с увеличением вычислительной мощности, стало возможным обрабатывать гигантские массивы информации, о которых пару десятилетий назад никто не мог даже задуматься.
Одним из таких подходов для обработки данных является анализ эмоциональной окраски текста. Он позволяет оценить отношение автора текста к объекту, о котором он ведет речь. Анализ тональности, применённый к различному контенту, оставляемому пользователем в сети, позволяет разным организациям судить о качестве своей работы, а также предоставлять для пользователей контент, основанный на их предпочтениях.
Эмоциональная окраска текста может определяться различным образом. В данной работе рассматривается бинарный случай этой задачи. То есть, является ли отношение автора текста к описываемому объекту позитивным или негативным. Так же возможно задавать значение по вещественной шкале.
Целью данной работы является определение эмоциональной окраски рецензий к кинофильмам. С помощью построенной модели можно быстро и эффективно определять настроение широкой аудитории по отношению к той или иной кинокартине
Существует несколько различных подходов и методов для построения алгоритма определения эмоциональной окраски. Одними из самых популярных и сильно развивающихся в последнее время являются методы с использованием машинного обучения с учителем.
Для того, чтобы компьютер мог «понять» смысл текста, предоставленного для определения тональности, нужно сначала перевести естественный язык в понятный для компьютера формат. Для представления слов и документов в векторный вид, будем использовать различные инструменты для преобразования текста, такие как Bag of Words, Word2Vec, Doc2Vec.
Структура. Выпускная работа состоит’ из введения, трех глав, заключения, списка используемой литературы и приложения. В первой главе рассмотрены теоретические моменты моделей для построения векторного пространства. Во второй - рассмотрена структура классификаторов. А в третьей - проведен анализ и сравнение классификаторов, рассмотренных во второй главе. Тексты рецензий и соответствующие оценки взяты с сервиса Kinopoisk. После построения модели на обучающей выборке и получении хороших результатов на тестовой выборке, модели с наилучшими результатами проверялись на неразмеченных данных.

✅ Заключение

В данной работе было проведено исследование существующих подходов к классификации текстов по эмоциональной окраске с помощью нейросетевых моделей. Также было проведено сравнение эффективности работы классификаторов на реальных данных. В результате экспериментов, в ходе которых для каждой модели были подобраны оптимальные параметры, выяснилось, что наиболее эффективными моделями для данной задачи являются Random Forest и рекуррентная нейронная сеть LSTM. Также были рассмотрены методы преобразования текста в векторное пространство. Было получено, что, хотя модели Bag of words и Word2Vec дают приблизительно одинаковые результаты, предпочтение отдается модели Word2Vec, потому что она имеет намного меньший размер вектора по сравнению с Bag of words (300 и 5000 соответственно). Такой размер вектора значительно уменьшает вычислительные затраты при работе с векторами. Также имеется модель представления векторного представления слов Doc2Vec, являющаяся более общим аналогом Word2Vec, которая может преобразовывать данные переменной длины. Модель тоже показала хорошие результаты, но имеет небольшую потерю качества, по сравнению с Word2Vec.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Quoc Le, Tomas Mikolov. Distributed Representations of Sentences and Documents -2013. https://cs.stanford.edu/-quocle/paragraph vector.pdf
2. Christopher Olah. Understanding LSTM Networks - 2015.
http://colah. github.io/posts/2015-08-Understanding-LSTMs/
3. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estima¬tion of Word Representations in Vector Space.
https://arxiv.org/abs/1301.3781
4. Alexander Dyakonov. Случайный nec(Random Forest) - 2016. https://alexanderdyakonov.wordpress.com/2016/11 /14/%D 1 %81 %D0%BB %Dl%83%Dl%87%DO%BO%DO%B9%DO%BD%Dl%8B0/oDO%B9- %D0%BB%D0%B5%Dl%81 -random-forest/
5. Learning word vectors for sentiment analysis I Andrew L Maas, Raymond E Daly, Peter T Pham et al.. // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies- Volume 11 Association for Computational Linguistics. — 2011.
6. Manning Christopher D., Raghavan Prabhakar, Schtitze Hinrich. Introduc¬tion to Information Retrieval. — Cambridge University Press, 2008.
7. Narayanan Vivek, Arora Ishan, Bhatia Arjun. Fast and accurate sentiment classification using an enhanced Naive Bayes model // Intelligent Data En¬gineering and Automated Leaming-IDEAL 2013. — Springer, 2013.
8. Pang Bo, Lee Lillian, Vaithyanathan Shivakumar. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL- 02 conference on Empirical methods in natural language processing-Volume
10 / Association for Computational Linguistics. — 2002.
9. Recursive deep models for semantic compositionality over a sentiment tree¬bank I Richard Socher, Alex Perelygin, Jean Y Wu et al. // Proceedings of the conference on empirical methods in natural language processing (EMNLP) / Citeseer. — Vol. 1631. — 2013.
10. Abbasi Ahmed, Chen Hsinchun, Salem Arab. Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums I I ACM Transactions on Information Systems (TOIS). — 2008.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211001)

Статьи

»» Все статьи

Вход в личный кабинет