Тема: Рекуррентные нейронные сети в задаче анализа тональности текста
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 6
Обзор литературы 7
Глава 1. Существующие подходы к задаче анализа тональности текста 8
1.1. Методы обучения без учителя 8
1.2. Методы обучения с учителем 8
1.2.1. Наивный байесовский классификатор 9
1.2.2. Метод максимальной энтропии 9
1.2.3. Метод опорных векторов 10
1.3. Анализ и сравнение методов 11
Глава 2. Архитектура нейронной сети 13
2.1. Рекуррентные нейронные сети 13
2.2. Архитектура «долгая краткосрочная память» 14
2.3. Модель нейронной сети для задачи анализа тональности текста 17
Глава 3. Реализация 19
3.1. Предварительная обработка данных 19
3.2. Реализация нейронной сети 19
Глава 4. Количественная оценка метода 21
Выводы 22
Заключение 23
Список литературы 24
📖 Введение
Пользователи создают огромное число различных материалов: записи в форумах и блога, «статусы» в социальных сетях, фотографии и видео на специализированных ресурсах и многое другое. С течением времени появилось несколько крупных сайтов, собирающих мнения про, например, товары, фильмы, книги; вот некоторые из них: Amazon2, Metacritic3, IMDB4. Некоторые из них даже входят в 500 самых посещаемых сайтов5 сети Интернет. Прежде чем отдать предпочтение одному из товаров, у человека появилось возможность узнать мнение остальных людей, которые владеют этим товаром. Количество таких мнений огромно, что позволяет человеку узнать все необходимое и лишь затем сделать выбор. Но с течением временеми отзывов стало слишком много — изучить все отзывы на какой- либо популярный товар является невыполнимой задачей для одного человека. Для производителей товаров это стало особо важно — иногда есть необходимость следить за отзывами, а держать большой отдел экспертов- лингвистов, который осуществлял бы мониторинг отзывов и оценивал их — экономически невыгодно. Эта ситуация является причиной появления такого предмета, как анализ мнений: была острая необходимость в создании системы классификации мнений с минимальным участием людей.
Анализ мнений включает в себя несколько задач, направленных на решение одной и той же проблемы — качественная оценка отношения автора текста к субъекту, который рассматривается в этом же тексте. Из конкретных задач, которые входят в анализ мнений, можноо выделить такие задачи, как: оценка субъективности или объективности текста по отношению к субъекту, классификация отношения автора к субъекту. Последняя задача называется задачей анализа тональности текста и является фундаментальной в анализе мнений — чтобы делать какие-то дальнейшие выводы про мнение, необходимо сперва понять, как автор относится к субъекту.
Задача анализа тональности текста сводится к задаче класификации. Текст нужно отности к одному из классов эмоциональной окраски, например, «положительный», «отрицательный» или «нейтральный». В общем случае, число классов конечное. Классификаторы могут работать как с исходными данными(например, целым текстом, отдельными предложениями, отдельными словами текста, n-граммами), так и с некоторыми векторными представлениями текста или слов(например, мешок слов [1]). Иногда классификация происходит в два этапа и на обоих этапах является бинарной. На первом отделяются субъективные сообщения от объективных. Объективными в этом случае называются как раз те, которые не несут эмоциональной окраски и являются нейтральными в варианте с тремя классами. Второй этап делит субъективные тексты на положительные и отрицательные. Получается, что решение задачи тональности текста с 3 классами, решает в один этап и задачу оценки субъективности или объективности.
За последние годы искуственные нейронные сети доказали свою эффективность для многих задач. Так, нейронные сети могут выделять отдельные гитарные аккорды в музыке [2], распознавать цифры [3] и другие объекты на изображениях [4].
Искусственной нейронной сетью называется математическая модель, построенная по принципу организации и функционирования биологических — сетей нарвных клеток живых организмов. Это модель была получена в середине XX века при попытке смоделировать процессы, протекающие в человеческом мозге. Искусственная нейронная сеть состоит из соединенных между собой «нейронов», каждому из которых присвоена определенную функцию активации. По соединениями между нейронами распространяте- ся сигнал. Каждое соединение между нейронами имеет численное значение, которое называется весом. Состояние нейрона определяется по формуле S = Е Li xiwi, где n — число входов нейрона, xi — значение входа i-ого нейрона, wi — вес у i-ого входа. Для дальнейшего распространения сигнала, над состоянием применяется функция активации и полученное значение передается остальным нейронам. Визуально нейронную сеть можно представить в виде взвешенного направленного графа, где вершины будут нейронами, а ребра — связями. Процесс обучения нейронной сети заключается в нахождении всех весов связей.
Рис. 1: Двухслойный перцептрон с 2 входными и 1 выходным нейронном. Зеленым цветом обозначены входные нейроны, голубым — скрытые нейроны, желтым — выходные нейроны.
Нейронные сети классифицируют на 2 класса: нейронные сети прямого распространения сигнала и нейронные сети с обратными связями. Одним из наиболее распространенных типов нейронной сети прямого распространения сигнала является многослойный перцептрон, его пример представлен на рисунке 1. К нейронным сетям с обратными связами относят рекуррентные нейронные сети. Рекуррентные нейронные сети показывают хорошие результаты во многих задачах связанных с классификацией последовательностей, например, распознание речи [5] и подавление шума [6]. Помимо этого, рекуррентные нейронные сети показывают одни из лучших результатов на данный момент в некоторых задачах связанных с обработкой текста на естественном языке, например, в задаче классификации текста [7].
Целью данной работы было применение рекуррентных нейронных сетей к задаче анализа тональности текста и сравнение полученных результатов с результатами существующих подходов к этой задаче.
✅ Заключение
В качестве продолжения данной работы можно рассмотреть применение векторного представления слова word2vec [30] или sentence2vec [31] в качестве альтернативы векторного представления мешок слов. Эти представления позволили улучшить результат работы методов классификации в задаче классификации текстов, поэтому вполне возможно, что они позволят улучшить и результаты, полученные в данной работе. Также можно сформулировать и решить задачу классификации мнений на субъективные и объективные, дополнить полученную архитектуру неиронной сети так, чтобы одновременно решались и задача анализа тональности, и задача классификации мнений.





