Тема: Анализ тональности текстов новостных источников по отношению к заданному объекту
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 6
Обзор литературы 7
Глава 1. Предварительная обработка текста 13
Глава 2. Построение векторной модели текста 14
2.1. Метод Word2Vec 14
2.2. Метод Bag Of Words 18
Глава 3. Определение тональности текста с помощью алгоритмов машинного обучения 20
3.1. Наивный Байесовский классификатор 25
3.2. Метод опорных векторов 25
3.3. Алгоритм градиентного бустинга 25
Глава 4. Практическая реализация и результаты 30
4.1. Формулировка задачи 30
4.2. Сбор данных с web-ресурса 31
4.3. Чистка данных и создание словаря 34
4.4. Алгоритмы преобразования текстовой информации в векторную 35
4.5. Применение градиентного бустинга 36
Выводы 40
Заключение 41
Список литературы 43
📖 Введение
Анализ мнений (opinion mining} или анализ тональности текстов (Sentiment Analysis}- это область компьютерной лингвистики, которая занимается автоматизированным выявлением и изучением эмоционально окрашенной лексики и эмоциональной оценки авторов по отношению к объектам, о которых идет речь в тексте. Данное научное направление зародилось в начале этого столетия и постепенно стало активно развиваться в связи большим количеством практических применений в различных областях, например, анализ ценообразования [1] ,мониторинг бренда [2], прогнозирование рынка [3] и др. Анализ тональности позволяет извлечь из текста мнение автора в отношении заданного объекта. Отношение может выражать суждение, мнение или оценку автора, его эмоциональное состояние.
В настоящее время рост популярности социальных сетей, интернет- магазинов и ресурсов с онлайн-обзорами различных продуктов и услуг предоставляет большое количество материалов, которые могут быть использованы для принятия решения в пользу того или иного объекта.
Целью данной работы является сравнение методов анализа тональности текста и их применение по отношению к текстовым комментариям, оставленным на новостных и информационных порталах, посвященных сравнению банковских продуктов, а также разработка технологии автоматического выявления и оценки мнений. Решение этой проблемы позволит понять, когда клиенты банков удовлетворены или недовольны, в чем заключаются проблемы обслуживания, понять отношение клиентов к банку. Для банковского сектора извлечение такой информации является критичным, в силу высокой конкуренции в этой сфере. В связи с этим тема выпускной работы является актуальной и находит практическое применение.
Задача анализа тональности текста состоит из трех этапов: предварительной обработки текста, перевода текста в вещественное пространство признаков и использования методов машинного обучения для последующей классификации тональности. Предобработка текста - ключевой момент данного процесса, включающий в себя удаление стоп-слов, сегментацию и приведение слов к одной грамматической форме, маркировку частей речи и анализ. Современные алгоритмы машинного обучения, используемые при решении подобных задач, ориентированы на признаковое описание объектов [4]. В связи с этим после предобработки анализируемый текст переводится в вещественное пространство признаков. Для этого чаще всего используются методы, основанные на статистической информации о словах, например, «мешок слов» (bag of words) [5] или Word2Vec [6]. В этом случае каждому объекту соответствует вектор, длина которого равна количеству используемых слов во всех текстах выборки.
Заключительным шагом при анализе тональности текста является выбор подходящих для решения данной задачи алгоритмов машинного обучения. Как правило, анализ мнений на уровне документа может быть сформулирован как проблема классификации, которая определяет, выражается ли положительное, отрицательное или нейтральное мнение. Классификаторы обучаются определять полярности рассматриваемых текстов. Наивный байесовский классификатор [7], энтропийный классификатор [8], метод опорных векторов (SVM) [9], градиентного бустинга [10] являются наиболее часто используемыми моделями.
В представленной работе исследуются существующие в настоящее время методы обработки естественного языка для анализа мнений клиентов банков. В разделе, посвященному обзору литературы, рассматриваются основные подходы и алгоритмы, описанные в литературе и применяемые на каждом из трех этапов решения поставленной задачи. В первой главе описываются общие методы обработки естественного языка, используемые для предварительной обработки текстов. Вторая глава посвящена сравнению двух наиболее популярных методик представления слова в виде вектора фиксированной длины: мешок слов и Word2Vec. В третьей главе исследуются алгоритмы классификации, использованные в данной работе. В четвертой главе представлено описание практической реализации рассмотренных алгоритмов и результаты определения тональности неразмеченных текстов мнений. В разделах выводы и заключение содержатся основные результаты выполненной работы, а также предлагаются возможные пути улучшения качества работы созданной системы.
✅ Заключение
Также важно понимать, что на точность прогноза алгоритмов повлияло качество, загруженных с веб-ресурса данных. На сайте не ведется мониторинг соответствия текста отзыва оценке, поставленной автором. Были замечены отзывы, имеющие ярко выраженную позитивную окраску, но оценка стояла самая низкая.
Таким образом, можно сделать вывод, что метод машинного обучения с учителем всецело зависит от качества размеченных данных, а использование неочищенных текстовых источников ведет к получению низкой точности прогноза.
Результатом, полученным в 4 главе, является программный код, который проводит семантический анализ отзывов с веб-ресурса. Анализ был проведен двумя разными способами, мы сделали векторную модель слов с помощью нейронной сети и с помощью алгоритма TF-IDF, полученные результаты (57% и 67% соответственно) очевидно доказывают, что в нашей ситуации, когда мы работает с «живым» языком, большим количеством исходных данных лучше показывает результаты TfidfVectorizer классификатор. Также важно понимать, что на точность прогноза алгоритмов повлияло качество, загруженных с веб-ресурса данных. На сайте не ведется мониторинг соответствия текста отзыва оценке, поставленной автором. Были замечены отзывы, имеющие ярко выраженную позитивную окраску, но оценка стояла самая низкая. Как видим, метод машинного обучения с учителем всецело зависит от размеченных данных и использование неочищенных источников ведет к получению низкой точности прогноза.





