Тема: Анализ тональности текстов с использованием нейросетевых моделей
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 7
Обзор литературы 8
Глава 1. Описание предметной области 10
1.1 Анализ тональности текста 10
1.2 Компьютер меня не понимает 12
Глава 2. Модели для построения векторного представления 16
2.1 «Мешок слов» 16
2.2 Word2Vec 18
2.3 Doc2Vec 22
Глава 3. Классификация 25
3.1 Рекуррентные нейронные сети 25
3.2 SVM (support vector machine) - метод опорных векторов 33
3.3 Random forest - случайный лес 35
3.4 Оценка эффективности модели 36
Глава 4. Экспериментальная часть 38
4.1 Данные 38
4.2 Словарь тональности 41
4.3 LSTN-RNN 42
4.4 «Мешок слов» 43
4.5 Word2vec 44
4.6 Doc2Vec 50
4.1 Обучение классификатора 52
Выводы 56
Заключение 57
Список литературы 59
Приложение 60
📖 Введение
На дворе век информационных технологий, компьютеры могут многое, в чем-то даже превосходят человеческие возможности. Но научить машину думать, как человек, - мы к этому только стремимся!
При рождении ребенка мозг имеет совершенную структуру, благодаря которой создаются собственные правила под воздействием опыта. Накопление опыта идет постоянно, наиболее сильные изменения происходят в первые годы жизни ребенка. Однако развитие продолжается до последних дней жизни человека. Это обусловлено пластичностью мозга - способностью настройки нервной системы в соответствии с окружающими условиями. Именно эта функция играет важную роль в работе нейронов в качестве единиц обработки информации в мозге человека.
В середине прошлого столетия началось распространение и изучение искусственных нейронных сетей, начало которым было дано в статье 1943г. McCalloch W.S., Pitts W. «A logical calculus of the ideas immanent in nervous activity».
Основной идеей создания искусственных нейронных сетей стала аналогия с устройством нейронной сети в человеческом мозге, то есть вся работа осуществляется при помощи нейронов. В общем случае нейронная сеть представляет собой модель человеческого мозга, решающую поставленную задачу.
Нейронная сеть - это громадный распределенный параллельный процессор, состоящий из элементарных единиц обработки информации, накапливающих экспериментальные знания и предоставляющих их для последующей обработки. Нейронная сеть сходна с мозгом с двух точек зрения:
- знания поступают в нейронную сеть из окружающей среды и используются в процессе обучения;
- для накопления знаний применяются связи между нейронами, называемыми синаптическими весами.
Основой данной работы является исследование методов глубинного изучения (deep learning)с использованием нейросетевых моделей для решения задач обработки текстов. Для того чтобы проводить исследования, необходимо сначала перевести естественный язык в понятный для компьютера формат, в данном случае - числовой. Для представления слов и документов в векторном виде будем использовать различные модели, такие как «мешок слов» (Bag of Words), Word2Vec, Doc2Vec.
В качестве примера обработки текста была выбрана задача определения тональности рецензий пользователей сервиса Kinopoisk. Определение тональности текстов является весьма актуальной задачей. Ежедневно тысячи пользователей штудируют Интернет в поисках мнений о том или ином товаре, услугах организаций и прочее. Отзывы помогают определиться с выбором не только людям, но и компаниям, что также полезно. При помощи отзывов организация может судить о качестве своей работы. Естественно, не стоит забывать о более глобальных задачах, например, исследование политических настроений в преддверии выборов или оценка существующей власти.
Задача подразумевает обучение классификаторов на имеющемся множестве размеченных данных, которые будут разделены на два подмножества: обучающее и тестовое. Каждое подмножество представлено в виде текста рецензии на русском языке и оценки, несущей позитивный или негативный мотив.
✅ Заключение
Можно сделать основной вывод данной работы - нейросетевые модели являются передовыми в области обработки текстов на естественном языке.



