Тема: ВЫДЕЛЕНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ НАИМЕНОВАНИЙ ТОВАРОВ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. МАШИННОЕ ОБУЧЕНИЕ И ТОКЕНИЗАЦИЯ 6
1.1. Машинное обучение 6
1.2. Нейронные сети 8
1.3. Named Entity Recognition 10
1.4. Метрики 12
1.4.1. Accuracy 12
1.4.2. Precision, Recall, F1 13
1.5. Векторное представление слов 17
1.6. Выводы к первой главе 19
2. АНАЛИЗ МОДЕЛЕЙ 20
2.1. Лог-линейная модель 20
2.2. Рекуррентные сети 26
2.3. CharCNN-BiLSTM-CRF 33
2.4. Transformers 36
2.4.1. BERT 40
2.5. Sequence-Labeling 42
2.6. Подход через другие задачи 43
2.7. Выводы ко второй главе 46
3. ПОСТРОЕНИЕ МОДЕЛИ 47
3.1. Формализация задачи 47
3.2. Анализ моделей и датасетов для русского языка 48
3.3. Подготовка датасета 50
3.4. Обучение моделей 55
3.5. Анализ значений метрик 56
3.6. Пример работы 58
3.7. Выводы к третьей главе 61
ЗАКЛЮЧЕНИЕ 62
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 63
Приложения должны быть в работе, но в данный момент отсутствуют
📖 Введение
Последние несколько лет происходит бурное развитие в решении задачах, связанных с обработкой текстовых данных, извлечении из этих текстовых данных какой-либо ценной информации. Это может быть как поиск определенных сущностей в тексте, связей между ними, классификация этого текста, генерация последовательностей, составление вопросно-ответных систем и т.д.
Классификация токенов в последовательности является одной из задач обработки естественного языка. Как пример, этим могут заниматься банки, в которых постоянно происходит обработка огромного количества неструктурированного текста. Так, например, Сбербанк применяет задачу классификации токенов для того, чтобы ускорить выдачу кредитов [16]. Или, например, ВТБ использует как одну из задач, для решения проблем, связанных с мониторингом новостей для оценки кредитных рисков компании, рекомендации покупки/продажи ценных бумаг, выявление взаимосвязанных компаний/бенефициаров, разбора команд, произнесенных клиентом голосовому помощнику, для идентификации получателя платежа и т.д. [13]. Также, не только банки используют эту информацию. Например, Яндекс использует распознавание именованных сущностей для нахождения нужных
объектов при запросах к Алисе [12]. Или же, например, компания Домклик также решает эту задачу для своего текстового и голосового помощника, помогая найти упоминания персоны, даты, продукта, приложения и т.п. [15].
В нашем случае имеется текстовые данные с характеристиками товара. Это могут быть такие свойства как бренд, вес, объем и т.д. Эту полезную информацию можно использовать, например, для того, чтобы находить нужную информацию при запросе к голосовому или текстовому ассистенту. Также, эти свойства могут помочь для автоматизации в колл-центрах. Например, помогать перенаправлять запрос на оператора по работе с определенным брендом или типом товара.
✅ Заключение
1. Описан метод при помощи которого решается данная задача, а именно была определена задача машинного обучения и произведена её правильная классификация, позволяющая избежать множество проблем.
2. Описаны основные модели, решающие эту задачу. И исходя из этого описания, был произведен выбор модели на основе архитектуры Transformer.
3. Была произведена подготовка датасета и построена модель, обученная на размеченном датасете, которая хорошо может распозновать бренд товара.
4. Проанализированы результаты модели и предложены гепотезы об улучшении показателей.
Исходя из построенной модели и её анализа, можно сказать, что поставленная цель достигнута, а задачи выполнены.



