Тема: АВТОМАТИЧЕСКАЯ КАТЕГОРИЗАЦИЯ ТОВАРОВ ПО ИХ НАИМЕНОВАНИЯМ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. ОБЗОР МЕТОДОВ РЕШЕНИЯ ЗАДАЧИ 6
1.1. Rule-based systems 6
1.2. Методы машинного обучения 7
1.3. Модель искусственного нейрона 11
1.4. Метрики качества 12
1.5. Векторные представления слов и документов 16
1.5.1. Статистические методы представления слов и документов .. 17
1.5.2. Word2Vec 20
1.5.3. Doc2Vec 23
1.5.4. Контекстно-зависимые векторные представления 24
1.6. Выводы по первой главе 24
2. ОСНОВНЫЕ АРХИТЕКТУРЫ НЕЙРОННЫХ СЕТЕЙ 26
2.1. Многослойные нейронные сети 26
2.2. Рекуррентные нейронные сети 28
2.3. Трансформеры 33
2.4. BERT 37
2.5. Классификация с помощью нейронных сетей 39
2.6. Выводы по второй главе 42
3. РЕШЕНИЕ ЗАДАЧИ 43
3.1. Поиск датасета 43
3.2. Обработка датасета 44
3.3. Выбор модели 47
3.4. Обучение модели 48
3.5. Результаты 50
3.6. Выводы по третьей главе 52
ЗАКЛЮЧЕНИЕ 53
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 54
ПРИЛОЖЕНИЕ 57
📖 Введение
Также на данную проблему можно посмотреть с другой стороны. Допустим, что уже имеется некоторая (возможно ручная) категоризация каталога, но необходимо перевести её в другую систему категорий. Данная проблема актуальна для государственных учреждений, в которых государственные закупки делаются в соответствии с общероссийским классификатором продукции по видам экономической деятельности – ОКПД2.
Еще одно возможное применение автоматической категоризации состоит в том, чтобы не непосредственно производить классификацию, но предложить пользователю наиболее вероятные категории товара. Такой подход упрощает категоризацию для пользователя и наиболее актуален при добавлении новых товаров в различные интернет-магазины.
Задача классификации текстов имеет два основных подхода решения. Первый подход состоит в написании правил, по которым определяется категория товара. Данный подход индивидуален для каждой задачи и требует ручного труда для составления правил, которые к тому же впоследствии нужно обслуживать, поэтому большого распространения rule-based методы не получили.
Второй подход состоит в использовании методов машинного обучения. Существует большое количество разнообразных методов обучения, но в последнее время наибольшее распространение получили методы, использующие в своей основе нейронные сети [22].
Среди нейросетевых методов явными фаворитами являются модели, построенные на архитектуре Transformer [16]. Для создания и обучения моделей используются разные языки программирования, но основным языком является Python. Язык Python используется вместе с его библиотеками.
Для анализа данных обычно применяется библиотека pandas, для работы с нейронными сетями – библиотеки tensorflow (keras) и PyTorch. Также существует проект под названием Hugging Face, в котором каждый желающий может выложить свою обученную модель в открытый доступ или использовать модели сообщества для решения своих задач.
✅ Заключение
В работе был произведен анализ основных подходов к решению задачи. Описаны главные концепции и определения машинного обучения. Были рассмотрены основные типы классификаторов, формализовано понятие искусственного нейрона. Отдельный раздел посвящен оценке качества моделей при решении задач классификации. Изучены различные решения проблемы векторного представления текстовых данных.
Рассмотрены основные типы архитектур нейронных сетей, использующихся при решении задач обработки естественного языка. Дается анализ использования нейронных сетей для решения задач классификации, описан подход переноса знаний между моделями – Transfer Learning.
Решена практическая задача классификации на примере каталога именованных товаров. Подробно расписаны стадии решения задачи, такие как: поиск и обработка датасета, выбор и обучение модели. Произведен анализ результатов полученной модели.



