Тема: Методы распознавания интентов в русскоязычном пользовательском контенте
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Обзор литературы 6
1. Обзор методов и технологий для выявления
интентов в диалоговых системах 10
1.1. Диалоговые системы и существующие решения 10
1.2. Обзор методов кодирования текста 14
1.3. Методы распознавания интентов 16
1.3.1. Классические методы машинного обучения 16
1.3.2. Нейросетевые методы 18
1.4. Метрики оценки качества в задаче распознавания
интентов 19
1.5. Открытые датасеты 19
2. Разработка методов выделения интентов 24
2.1. Общая архитектура решения 24
2.2. Разработка методов выделения интентов 25
2.3. Оценка качества предложенных методов 29
2.3.1. Постановка эксперимента 29
2.3.2. Результаты эксперимента 29
2.4. Примеры выделения интентов 33
2.5. Выводы 34
Заключение 37
Список литературы 39
📖 Введение
Искусственный интеллект и машинное обучение несомненно привнесли много инноваций в нашу жизнь. Диалоговые системы, чат-боты и голосовые ассистенты становятся все более популярными, а использование больших генеративных моделей лишь усиливает эту тенденцию. При этом одним из ключевых исследовательских направлений остается разработка методов, позволяющих системам точно интерпретировать и понимать намерения пользователей — интенты.
С голосовыми ассистентами и чат-ботами распознавание интентов становится критически важным. Сегодня они играют центральную роль в развитии и автоматизации диалоговых систем, построенных на базе нейронных сетей и других методов машинного обучения. Эти системы должны точно интерпретировать намерения пользователей, что усложняется разнообразием выражения их запросов и потребностей. Сложности вызывают как многообразие способов построения предложения, так и присутствие шума в данных, например, использование сленга пользователями.
Это приводит к необходимости классификации интентов, что является отдельной и нетривиальной задачей. Более того, после определения намерения системе необходимо задействовать метод принятия решений, чтобы обработать и удовлетворить запросы пользователей. Исследователи используют различные методы для распознавания интентов, но достижение высокой точности остается актуальной задачей.
Цель работы
Целью научно-исследовательской работы является разработка классических и нейросетевых методов для выделения интентов для встраивания их в русскоязычные диалоговые системы, позволяющие эффективно учитывать особенности пользовательского контента независимо от формы его словесного выражения.
Задачи работы
Для достижения цели были поставлены следующие задачи:
1. Провести обзор и классификацию современных моделей для выделения интентов.
2. Провести сравнительный анализ найденных методов.
3. Провести обзор современных методов кодирования текста.
4. Провести обзор существующих диалоговых систем.
5. Провести обзор метрик оценки качества для сравнения моделей.
6. Спроектировать общую архитектуру методов для анализа и поиска ин- тентов.
7. Найти датасет.
8. Провести эксперименты с существующими моделями.
9. Провести оценку существующих алгоритмов для русского языка.
Практическая значимость работы
Данное исследование стремится к преодолению описанных сложностей в области создания текстовых чат-ботов и диалоговых систем, применяя новейшие методы и техники машинного обучения и нейронных сетей. Это представляет огромное значение для постоянно развивающейся области обработки естественного языка. В частности, развитие автоматизированных диалоговых систем позволит улучшить взаимодействие компании и клиента: увеличить уровень доверия клиента к компании, предоставить более широкий доступ к экспертной информации, необходимой клиенту, сократить использование человеческого ресурса и времени.
Разработанные методы могут быть внедрены в системы чат-ботов таких организаций, как службы поддержки банка, университетов, в системы колл- центров, государственных организаций и МФЦ и в системы принятия решений. Также данные методы найдут применение в разработке коммерческих сервисов, требующих высокого уровня автоматизации и точности в распознавании пользовательских запросов.
✅ Заключение
1. Выполнен обзор литературы.
2. Выполнен обзор существующих диалоговых систем и проведен их сравнительный анализ.
3. Проведен обзор общих подходов к задаче выделения интентов.
4. Выполнен обзор методов кодирования текста.
5. Выполнен обзор современных методов выделения интентов.
6. Проведен обзор метрик качества для сравнения моделей.
7. Разработана общая архитектура для решения задачи классификации ин- тентов.
8. Разработаны методы машинного обучения и нейросетевые методы, такие как LR + TF-IDF, Decision Tree + TF-IDF, Random Forest + TF-IDF, AdaBoost + TF-IDF, AdaBoost + M-USE, KNN + TF-IDF, KNN + mini- LM, KNN + M-USE, SVM + TF-IDF, SVM + mini-LM, SVM + M-USE, RNN + TF-IDF, LSTM + TF-IDF, LSTM + mini-LM, LSTM + M-USE, BiLSTM + TF-IDF, Rubert tiny 2 + NN, DistilBert + NN.
9. Проведен эксперимент по оценке качества разработанных методов, который показал, что метод “LSTM + M-USE” дает наилучшие результаты по метрикам accuracy, precision, recall, F1-мера при малом времени ответа.
Исходный код доступен по сссылке: https://github.com/AirisFiorentini/Intent- recognition-methods-in-Russian-language-user-generated-content.
Перспективы развития исследования
В качестве развития исследования планируется попробовать полные версии моделей, основанных на трансформерах, такие как BERT и GPT. Эти модели не удалось запустить из-за наличия ограничений доступности вычислительных ресурсов.
Предложенные методы можно встроить в диалоговые системы и голосовые помощники, которые позволят не только определять категорию запроса, но и генерировать ответ пользователю.





