Тема: КЛАССИФИКАЦИЯ ТЕКСТОВ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ ДЛЯ СЕРВИСА “НАРОДНЫЙ КОНТРОЛЬ”
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Постановка задачи классификации 6
1.1. Формальная постановка 6
1.2. Анализ методов автоматической классификации 6
1.3. Нейронная сеть 7
1.4. Алгоритм обучения 9
1.5. Метод опорных векторов 11
1.6. Численная оценка качества алгоритма 14
2. Реализация нейросетевого классификатора 19
2.1. Сбор данных 19
2.2. Способы представления текста 20
2.3. Стемминг 21
2.4. Кодирование входных данных 22
2.5. Проектирование реализации 23
2.6. Обучение нейронной сети 25
2.7. Тестирование нейронной сети 27
2.8. Структура приложения 29
3. Классификация методом опорных векторов 31
Заключение 33
Список литературы 35
Приложение
📖 Введение
Система берет на себя основной объем работ по классификации самых популярных категорий обращений. В связи с тем, что основная нагрузка происходит на 11 категорий, около половины категорий никогда не использовались, а остальные(их около 25) имеют меньше 1000 заявок. Для сравнения, на наиболее популярную категорию пришлось около 45000 заявок, а число всех поданных заявок около 148000 за все время существования сервиса. Статистика взята с официальной страницы сервиса на портале государственных и муниципальных услуг Республики Татарстан[2]. Соотношение количества заявок по категориям представлено в таб. 1. Для обучения классификатора необходимо большое количество данных, причем равное для всех категорий, поэтому было решено установить рубеж в 1100 заявок на каждую категорию.
Таблица 1. Количество заявок по категориям.
Название категории Количество заявок в Количество заявок в
обращений системе, шт. системе, %
Благоустройство
территории 44268 40.33236757
Содержание и ремонт
муниципальных дорог 19510 17.77546967
Организация
дорожного движения 16549 15.07771643
Общественный
транспорт 6135 5.589569781
Нарушение в
наружной рекламе 4894 4.45890049
Нарушение правил
торговли 3098 2.822573298
Поликлиники и
больницы 2642 2.407113832
Свалки 2582 2.352448113
Мобильная связь 1583 1.44226389
Доступная среда 1345 1.225423204
Бездомные животные 1169 1.065070428
Задача классификации это задача сопоставление объектов к определенным классам. Было решено использовать методы машинного обучения на основе искусственных нейронных сетей. С помощью нейросетевых классификаторов можно добиться наибольшей точности классификации^]. Кроме того, скорость работы обученного классификатора в инкрементном режиме куда выше, чем у классификаторов построенных на базе других методов машинного обучения. Инкрементным режимом работы классификатора называется режим работы, при котором классификатор распознает каждый отдельно взятый документ в режиме реального времени, вместо распознавания всей выборки сразу.
Задача подготовки данных для нейронной сети состоит из следующих этапов:
1) Работа с данными
- Составить базу данных из заявок;
- Разбить всю совокупность данных на два множества: обучающее и тестовое. Разбиение обычно производится в соотношении 70/30, чтобы оценка качества классификатора была более объективной[4].
2) Предварительная обработка данных
- Построить словарь слов используемых в текстах, с помощью метода п-грамм[6];
- Выбрать систему кодирования входных значений, на основе построенного словаря.
3) Проектирование, реализация и обучение нейронной сети
- Выбрать топологию сети: количество слоев, число нейронов в слоях;
- Выбрать функцию активации нейронов;
- Оценить качество работы сети с помощью метрик качества на тестовом множестве;
- Остановится на варианте сети, который обеспечивает наилучшую способность к обобщению;
4) Использование и диагностика
- В случае достижение необходимой точности классификации использовать сеть для решения задачи;
- При необходимости вернутся на этап 2, изменив пространство признаков. Или на этап 3, изменив топологию сети, для достижения наибольшей точности классификации;
Результатом выполнения задач будет реализация автоматизированной системы по классификации заявок, которая может облегчить процедуру создания обращений для пользователей и обработки обращений для модераторов.
Цели работы:
1. Реализовать подсистему для построения словаря и преобразования текста в вектор;
2. Реализовать и протестировать наиболее эффективные топологии нейронных сетей на базе фреймворка;
3. На основе полученных результатов построить максимально эффективный классификатор.
✅ Заключение
Реализацию алгоритма классификации на основе нейронных сетей можно использовать для классификации заявок на портале “Народный контроль”.



