ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ ОБРАБОТКИ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
|
ПЕРЕЧЕНЬ СОКРАЩЕНИЙ И ОБОЗНАЧЕНИЙ 5
ВВЕДЕНИЕ 6
1 Обзор предметной области 8
1.1 Эмоциональная окраска текста 8
1.1.1 Понятие эмоциональной окраски текста 8
1.1.2 Примеры применения анализа тональности текстов 9
1.2 Машинное обучение 10
1.2.1 История и проблемы развития машинного обучения 10
1.2.2 Определение и виды машинного обучения 12
1.2.3 Обучение с учителем 13
1.3 Глубокое обучение 16
1.3.1 Перцептрон 18
1.3.2 Функции активации 19
1.3.3 Функции потерь 22
1.4 Оптимизация нейронной сети 23
1.4.1 Градиентный спуск 23
1.4.2 Стохастический градиентный спуск с импульсом 24
1.4.3 Алгоритм Adam 26
1.4.4 Методы борьбы с переобучением 26
1.4.5 Дропаут 28
1.5 Рекуррентная нейронная сеть 29
1.5.1 LSTM 31
1.6 Векторизация слов 34
1.6.1 Word2Vec 35
2 Описание параметров нейронной сети 37
2.1 Выбор архитектуры и гиперпараметров сети для задачи определения
тональности текста 37
2.2 Описание обучающей выборки 39
2.3 Предварительная обработка данных 41
2.4 Векторизация 42
3 Программная реализация 43
3.1 Обучение модели 43
3.2 Веб-приложение 43
3.2.1 Структура веб-приложения 44
3.2.2 Описание работы веб-приложения 44
4 Руководство пользователя 46
4.1 Установка библиотек и зависимостей 46
4.2 Инструкция по сборке проекта 46
5 Тестирование 49
5.1 Тестирование качества обучения нейронной сети 49
5.2 Тестирование веб-приложения 52
ЗАКЛЮЧЕНИЕ 57
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 58
ПРИЛОЖЕНИЕ А Листинг программы 61
ПРИЛОЖЕНИЕ Б Презентация 70
ВВЕДЕНИЕ 6
1 Обзор предметной области 8
1.1 Эмоциональная окраска текста 8
1.1.1 Понятие эмоциональной окраски текста 8
1.1.2 Примеры применения анализа тональности текстов 9
1.2 Машинное обучение 10
1.2.1 История и проблемы развития машинного обучения 10
1.2.2 Определение и виды машинного обучения 12
1.2.3 Обучение с учителем 13
1.3 Глубокое обучение 16
1.3.1 Перцептрон 18
1.3.2 Функции активации 19
1.3.3 Функции потерь 22
1.4 Оптимизация нейронной сети 23
1.4.1 Градиентный спуск 23
1.4.2 Стохастический градиентный спуск с импульсом 24
1.4.3 Алгоритм Adam 26
1.4.4 Методы борьбы с переобучением 26
1.4.5 Дропаут 28
1.5 Рекуррентная нейронная сеть 29
1.5.1 LSTM 31
1.6 Векторизация слов 34
1.6.1 Word2Vec 35
2 Описание параметров нейронной сети 37
2.1 Выбор архитектуры и гиперпараметров сети для задачи определения
тональности текста 37
2.2 Описание обучающей выборки 39
2.3 Предварительная обработка данных 41
2.4 Векторизация 42
3 Программная реализация 43
3.1 Обучение модели 43
3.2 Веб-приложение 43
3.2.1 Структура веб-приложения 44
3.2.2 Описание работы веб-приложения 44
4 Руководство пользователя 46
4.1 Установка библиотек и зависимостей 46
4.2 Инструкция по сборке проекта 46
5 Тестирование 49
5.1 Тестирование качества обучения нейронной сети 49
5.2 Тестирование веб-приложения 52
ЗАКЛЮЧЕНИЕ 57
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 58
ПРИЛОЖЕНИЕ А Листинг программы 61
ПРИЛОЖЕНИЕ Б Презентация 70
Задача анализа тональности текстов становится очень актуальной с каждым годом и набирает все большую популярность в современном мире.
С древних времен и по сей день люди живут в обществах, где мнение окружающих всегда влияло на различные аспекты жизни. Однако если раньше люди могли узнать мнение лишь ограниченного круга людей, то сегодня, с появлением интернета и широкой аудитории социальных сетей, интернет- магазинов, специализированных ресурсов, у пользователей появилась возможность узнать мнение большей аудитории.
Однако развитие информационных технологий привело к увеличению количества веб-сайтов и появлению большого объема текстовых данных, так как наиболее распространенной формой хранения информации являются тексты на естественном языке (обработка естественного языка). Тем не менее, для обычных пользователей работа с такими объемами данных с каждым годом становится все более сложной. Очевидно, что вручную искать и анализировать необходимую информацию в гигантских массивах текстовых данных неэффективно и дорого. Поэтому компьютеризация населения и необходимость перевода текстов в электронный вид приводят к разработке эффективных алгоритмов анализа и типизации этих текстов.
Одной из задач классификации является распознавание эмоционального тона текста, также известное как анализ настроения, которое решается с помощью методов машинного обучения. [1].
Целью данной работы является разработка и практическая реализация нейронной сети, которая позволяет классифицировать текст, написанный на русском языке, по двум видам эмоциональной окраски: положительный или негативный.
Для достижения цели были поставлены следующие задачи:
- изучение материала, необходимого для понимания действия работы нейронных сетей,
• исследование способов оптимизации нейронных сетей, а также их регуляризации,
• изучение библиотеки pytorch для практической реализации нейронной сети,
• подбор архитектуры и гиперпараметров нейронной сети, при которых точность модели достигала бы не менее 70% точности,
• обучение и тестирование модели нейронной сети,
• создание веб-приложения для визуализации работы обученной нейронной сети.
С древних времен и по сей день люди живут в обществах, где мнение окружающих всегда влияло на различные аспекты жизни. Однако если раньше люди могли узнать мнение лишь ограниченного круга людей, то сегодня, с появлением интернета и широкой аудитории социальных сетей, интернет- магазинов, специализированных ресурсов, у пользователей появилась возможность узнать мнение большей аудитории.
Однако развитие информационных технологий привело к увеличению количества веб-сайтов и появлению большого объема текстовых данных, так как наиболее распространенной формой хранения информации являются тексты на естественном языке (обработка естественного языка). Тем не менее, для обычных пользователей работа с такими объемами данных с каждым годом становится все более сложной. Очевидно, что вручную искать и анализировать необходимую информацию в гигантских массивах текстовых данных неэффективно и дорого. Поэтому компьютеризация населения и необходимость перевода текстов в электронный вид приводят к разработке эффективных алгоритмов анализа и типизации этих текстов.
Одной из задач классификации является распознавание эмоционального тона текста, также известное как анализ настроения, которое решается с помощью методов машинного обучения. [1].
Целью данной работы является разработка и практическая реализация нейронной сети, которая позволяет классифицировать текст, написанный на русском языке, по двум видам эмоциональной окраски: положительный или негативный.
Для достижения цели были поставлены следующие задачи:
- изучение материала, необходимого для понимания действия работы нейронных сетей,
• исследование способов оптимизации нейронных сетей, а также их регуляризации,
• изучение библиотеки pytorch для практической реализации нейронной сети,
• подбор архитектуры и гиперпараметров нейронной сети, при которых точность модели достигала бы не менее 70% точности,
• обучение и тестирование модели нейронной сети,
• создание веб-приложения для визуализации работы обученной нейронной сети.
В ходе работы над ВКР было спроектировано приложение, позволяющее определить эмоциональный окрас текста, написанного на русском языке. Для этого была разработана модель глубокого обучения с использованием LSTM-сети.
В процессе разработки системы были исследованы существующие архитектуры нейросетевых алгоритмов и современных инструментов для работы с нейронными сетями, проведен анализ исходных данных и сформирован обучающий набор, обучена подобранная модель нейронной сети и проведен анализ результатов обучения, а также для работы с моделью спроектирован пользовательский интерфейс.
Все задачи, поставленные для выполнения цели, выполнены.
Среди возможных вариантов улучшения модели можно выделить следующее:
• реализация api для сторонних сервисов,
• повышение точности модели за счет более детального подбора гиперпараметров сети,
• дообучение модели на расширенном наборе данных.
Таким образом, задание на ВКР выполнено в полном объеме.
В процессе разработки системы были исследованы существующие архитектуры нейросетевых алгоритмов и современных инструментов для работы с нейронными сетями, проведен анализ исходных данных и сформирован обучающий набор, обучена подобранная модель нейронной сети и проведен анализ результатов обучения, а также для работы с моделью спроектирован пользовательский интерфейс.
Все задачи, поставленные для выполнения цели, выполнены.
Среди возможных вариантов улучшения модели можно выделить следующее:
• реализация api для сторонних сервисов,
• повышение точности модели за счет более детального подбора гиперпараметров сети,
• дообучение модели на расширенном наборе данных.
Таким образом, задание на ВКР выполнено в полном объеме.
Подобные работы
- ДИСКУРСИВНЫЕ МАРКЕРЫ КАК СРЕДСТВО КЛАССИФИКАЦИИ
НОВОСТНЫХ ТЕКСТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2020 - Методы автоматического реферирования текстов на русском языке
Магистерская диссертация, нейронные сети . Язык работы: Русский. Цена: 5450 р. Год сдачи: 2022 - Методы автоматического реферирования текстов на русском языке
Магистерская диссертация, филология. Язык работы: Русский. Цена: 4750 р. Год сдачи: 2022 - Применение методов машинного обучения в задачах анализа новостных медиа
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2018 - Задача разрешения многозадачности текстов с использованием методов классификации и алгоритмов машинного обучения
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4855 р. Год сдачи: 2018 - ВИРТУАЛЬНЫЙ СОБЕСЕДНИК НА ОСНОВЕ НЕЙРОННЫХ И СЕМАНТИЧЕСКИХ СЕТЕЙ
Бакалаврская работа, информационные системы. Язык работы: Русский. Цена: 4260 р. Год сдачи: 2017 - Автоматизированная проверка развернутых ответов на естественном языке
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4770 р. Год сдачи: 2018 - РАЗРАБОТКА МОДУЛЯ РАНЖИРОВАНИЯ МЕСТ ПРОВЕДЕНИЯ ДОСУГА НА ОСНОВЕ ТОНАЛЬНОСТИ ОТЗЫВОВ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4325 р. Год сдачи: 2019 - Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4200 р. Год сдачи: 2022





