РАЗРАБОТКА СИСТЕМЫ ОПРЕДЕЛЕНИЯ НАСТРОЕНИЯ ПО ТЕКСТУ НА ОСНОВЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ
|
ВВЕДЕНИЕ 2
1. ПОСТАНОВКА ЗАДАЧИ ПО СОЗДАНИЮ ПРОГРАММЫ ПО
ОПРЕДЕЛЕНИЮ СЕМАНТИЧЕСКОГО НАСТРОЕНИЯ ТЕКСТА 5
1.1. Цель создания программы 5
1.2. Обзор существующих методов 6
1.3. Выбор методов для реализации 7
1.4. Выбор инструментов разработки 8
2. ОПИСАНИЕ РАБОТЫ 10
2.1. Реализация метода, основанного на словарях и лингвистике.
Эксперименты 10
2.2 Реализация метода, основанного на нейронной сети. Эксперименты. .. 12
ЗАКЛЮЧЕНИЕ 24
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 25
ПРИЛОЖЕНИЕ. ПРОГРАММНЫЙ КОД
1. ПОСТАНОВКА ЗАДАЧИ ПО СОЗДАНИЮ ПРОГРАММЫ ПО
ОПРЕДЕЛЕНИЮ СЕМАНТИЧЕСКОГО НАСТРОЕНИЯ ТЕКСТА 5
1.1. Цель создания программы 5
1.2. Обзор существующих методов 6
1.3. Выбор методов для реализации 7
1.4. Выбор инструментов разработки 8
2. ОПИСАНИЕ РАБОТЫ 10
2.1. Реализация метода, основанного на словарях и лингвистике.
Эксперименты 10
2.2 Реализация метода, основанного на нейронной сети. Эксперименты. .. 12
ЗАКЛЮЧЕНИЕ 24
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 25
ПРИЛОЖЕНИЕ. ПРОГРАММНЫЙ КОД
До наступления века современных технологий людям приходилось проделывать множество работы вручную, если появлялась необходимость проанализировать текст, будь то с эмоциональной точки зрения, или же с точки зрения структуры (неких лингвистических особенностей и закономерностей). Порой данная задача была непосильна в силу огромного объема данных, которые просто невозможно проштудировать в адекватные временные сроки, работа могло затянуться так сильно, что к моменту ее потенциального завершения, задача уже могла потерять свою актуальность. Ни смотря на сложность выполнения работы, такой способ анализа необходим в различных отраслях, таких как медиа, социальных науках, политологии и других сферах. С наступлением цифровой эпохи, повлекшей собой огромный прогресс в развитии компьютерных технологий, задача анализа текста стала решаемой в короткие временные промежутки. А в совокупности с тем фактом, что в современной IT-индустрии data mining, так называемый сбор и анализ огромного количества данных, в текущий момент занимает передовые позиции, решение задачи определения семантического настроения текста стало довольно популярным и прикладным в IT.
Окунувшись в историю развития инструментов анализа текста, можно получить более полное и цельное представление об этом направлении. В XVII веке общество сильно зависело от церкви, текстовый анализ производился религиозными властями для нахождения инакомыслящих авторов текстов для последующих гонений. В конце XIX века газеты набрали популярность у больших масс и начали конкурировать с Библией. Вследствие этого, анализ текста газет стал частым явлением, где тематика религии разбавилась научными топиками, различными сплетнями и скандалами публичных лиц. В 1970-х годах первенство перешло к опросам, а компьютеры еще не были в состоянии производить такие расчетные операции. В начале 2000-ых, наконец, новейшие технологии начинают постепенно доминировать в этом вопросе, производя всю работу за человека за доли секунды. С каждым годом уровень сложности решаемых задач растет, а время, затраченное на их решение, снижается, благодаря появлению новых методов и технологий, и модернизации уже имеющихся.
В целом, анализ текста с точки зрения эмоциональной составляющей делится на 2 категории:
Sentiment analysis - определение общего настроя писателя текст: субъективный (положительный или отрицательный) или же объективный (нейтральный). К примеру, предложение «Сегодня пообедал наивкуснейшим блюдом», вероятно, несет положительный оттенок, в то время, как «Путин четвертый президент в истории Российской Федерации» не имеет эмоциональной стороны и, скорее всего, будет определено в категорию объективных предложений (нейтральных). Для лучшего восприятия здесь представлена визуализация в виде треугольника с тремя полюсами (Рис. 1) , обозначающими настроение текста и Term sense position (место самого текста) в этой фигуре. Расстояние между текстом и полюсами напрямую говорит о степени принадлежности к тому или иному настроению, демонстрируя, что порой нет однозначного интерпретирования, ведь если текст окажется в середине треугольника, то появится очевидная неопределенность.
Emotion analysis - в свою очередь, несет с собой более подробный разбор предложения, выделяя уже ту или иную эмоцию, преобладающую в тексте. В качестве примеров эмоций представлены (Рис. 2): предвосхищение, радость, доверие, страх, удивление, грусть, отвращение, злость.
В рамках данной дипломной работы речь будет идти только о sentiment analysis, определении семантического настроения текста с точки зрения общего настроя автора, на основе твитов - сообщений в социальной сети twitter, созданной для обмена информацией между пользователями, преимущественно в текстовой форме.
Окунувшись в историю развития инструментов анализа текста, можно получить более полное и цельное представление об этом направлении. В XVII веке общество сильно зависело от церкви, текстовый анализ производился религиозными властями для нахождения инакомыслящих авторов текстов для последующих гонений. В конце XIX века газеты набрали популярность у больших масс и начали конкурировать с Библией. Вследствие этого, анализ текста газет стал частым явлением, где тематика религии разбавилась научными топиками, различными сплетнями и скандалами публичных лиц. В 1970-х годах первенство перешло к опросам, а компьютеры еще не были в состоянии производить такие расчетные операции. В начале 2000-ых, наконец, новейшие технологии начинают постепенно доминировать в этом вопросе, производя всю работу за человека за доли секунды. С каждым годом уровень сложности решаемых задач растет, а время, затраченное на их решение, снижается, благодаря появлению новых методов и технологий, и модернизации уже имеющихся.
В целом, анализ текста с точки зрения эмоциональной составляющей делится на 2 категории:
Sentiment analysis - определение общего настроя писателя текст: субъективный (положительный или отрицательный) или же объективный (нейтральный). К примеру, предложение «Сегодня пообедал наивкуснейшим блюдом», вероятно, несет положительный оттенок, в то время, как «Путин четвертый президент в истории Российской Федерации» не имеет эмоциональной стороны и, скорее всего, будет определено в категорию объективных предложений (нейтральных). Для лучшего восприятия здесь представлена визуализация в виде треугольника с тремя полюсами (Рис. 1) , обозначающими настроение текста и Term sense position (место самого текста) в этой фигуре. Расстояние между текстом и полюсами напрямую говорит о степени принадлежности к тому или иному настроению, демонстрируя, что порой нет однозначного интерпретирования, ведь если текст окажется в середине треугольника, то появится очевидная неопределенность.
Emotion analysis - в свою очередь, несет с собой более подробный разбор предложения, выделяя уже ту или иную эмоцию, преобладающую в тексте. В качестве примеров эмоций представлены (Рис. 2): предвосхищение, радость, доверие, страх, удивление, грусть, отвращение, злость.
В рамках данной дипломной работы речь будет идти только о sentiment analysis, определении семантического настроения текста с точки зрения общего настроя автора, на основе твитов - сообщений в социальной сети twitter, созданной для обмена информацией между пользователями, преимущественно в текстовой форме.
В результате проделанной работы была написана программа, которая реализует два различных алгоритма для определения настроения по тексту. Один из них основан на словаре и лингвистике, а второй на сверточной нейронной сети. Программа создана для людей, работающих с большими данными и требует минимальных знаний в программировании. Были проведены эксперименты для улучшения точности определения настроения текста, лучший результат в итоге составил 0.7916. Задача определения тональности текста актуальна в современном мире IT, а извлеченная информация имеет широкий спектр применения.
Подобные работы
- Проблема разработки системы оценки тональности сообщений на
украинском языке
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4790 р. Год сдачи: 2017 - Проблема разработки системы оценки тональности сообщений на украинском языке
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4600 р. Год сдачи: 2017 - Анализ онкологических патологий с использованием нейронных сетей
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4880 р. Год сдачи: 2020 - Применение сверточных нейронных сетей для локализации объектов на изображении
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4910 р. Год сдачи: 2020 - Автоматический анализ тональности на материале сообщений о политических партиях в социальных сетях
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 5500 р. Год сдачи: 2018 - МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА И ПРОГНОЗИРОВАНИЯ
ВАЛЮТНОГО РЫНКА НА ОСНОВЕ АНАЛИЗА ПОВЕДЕНЧЕСКИХ НАСТРОЕНИЙ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ МЕДИА
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4700 р. Год сдачи: 2018 - РАЗРАБОТКА МЕТОДИКИ ПРОГНОЗИРОВАНИЯ ДИНАМИКИ ИЗМЕНЕНИЯ ВЕКТОРА КОМПЬЮТЕРНОЙ АТАКИ С ТОЧКИ ЗРЕНИЯ НАРУШИТЕЛЯ
Диссертации (РГБ), информационная безопасность. Язык работы: Русский. Цена: 4335 р. Год сдачи: 2021 - Анализ тональности текстов политических новостей
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4300 р. Год сдачи: 2018 - Разработка новых методов анализа настроений, анализа текста в социальных сетях для прогнозирования предпочтения пользователей
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4965 р. Год сдачи: 2021



