Тема: Разработка классификатора товаров методами интеллектуального анализа данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 8
1. ОПИСАНИЕ БИЗНЕС-ПРОЦЕССОВ И СБОР ДАННЫХ 9
1.1. Применение методологии CRISP-DM 9
1.2. Анализ бизнес процессов 12
1.3. Сбор данных 14
Вывод по главе 17
2. АНАЛИЗ И ПОДГОТОВКА СОБРАННЫХ ТОВАРОВ 18
2.1. Поиск выбросов в наименовании товара 20
2.2. Поиск выбросов в тексте категории товара 22
2.3. Поиск выбросов в тексте характеристик 24
2.4. Анализ каталога 28
Вывод по главе 32
3. ПОСТРОЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ 33
3.1. Постановка задачи машинного обучения 33
3.2. Метрики качества классификации 35
3.3. Кросс-валидация 38
3.4. Выбор метода построения модели машинного обучения 41
3.5. Выбор способа преобразования признаков 43
3.5.1. Преобразования TFIDF 43
3.5.2. Добавление биграмм 44
3.5.3. Нормализация текста 46
3.5.4. Выбор оптимальных параметром для стохастического градиентного
спуска 47
3.6. Очистка выборки с помощью обученной модели 49
Вывод по главе 50
4. ВВОД КЛАССИФИКАТОРА В ЭКСПЛУАТАЦИЮ, ОБЗОР ТЕХНОЛОГИЙ
И ДАЛЬНЕЙШЕЕ РАЗВИТИЕ 51
4.1. Ввод классификатора в эксплуатацию 51
4.2. Обзор использованных технологий 53
4.2.1. Jupyter notebook 53
4.2.2. Pandas 57
4.2.3. Docker 59
4.2.4. Другие технологии 62
4.3. Идеи для дальнейшего улучшения модели 64
Вывод по главе 66
ЗАКЛЮЧЕНИЕ 67
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 68
📖 Введение
Данная выпускная квалификационная работа решает реальную проблему бизнеса. Цель этой работы — разработать систему, позволяющую гораздо быстрее классифицировать товары с минимальными затратами ресурсов.
Для достижения этой цели решено применить методы интеллектуального анализа, и были поставлены следующие задачи:
1) Изучить теоретические основы интеллектуального анализа данных, основные технологии и библиотеки для практического применения методов
2) Собрать и проанализировать данные
3) Выбрать метрику и способ оценки качества моделей
4) Построить и оценить различные модели
5) Внедрить модель в промышленное применение
В ходе разработке будут исследованы различные способы подготовки данных и методы машинного обучения.
Более того, данная работа может оказаться полезной не только для конкретной компании, поскольку в данной работе будет проведено исследование различных методов. Это может дать пользу последующим исследованиям в области обработки естественного языка.
✅ Заключение
Из данной работы я сделал вывод, что нельзя слепо верить утверждениям стейкхолдеров, а нужно проверять их, если есть возможность.
Большую часть работы составляет сбор и подготовка данных. На само моделирование требуется значительно меньше времени. Это связанно с тем, что реальные данные кроме ошибок содержат ещё множество аномалий и выбросов.
В данной работе были приведены результаты исследования различных способов подготовки признаков для моделей машинного обучения, и результаты моделирования с оценкой качества модели с помощью метрики F1.
В качестве методов машинного обучения были рассмотрены: стохастический градиентный спуск, метод опорных векторов, градиентный бустинг над решающими деревьями, и выбран наиболее подходящий.
В результате работы был разработан программный продукт, который работает на реальном предприятии и позволяет классифицировать товары в автоматическом режиме.
Так же была рассмотрена возможность дальнейшего развития данного продукта, и рассмотрен способ применения изображений товаров для улучшения качества классификации.





