📄Работа №196874

Тема: Разработка классификатора товаров методами интеллектуального анализа данных

📝
Тип работы Дипломные работы, ВКР
📚
Предмет экономика
📄
Объем: 66 листов
📅
Год: 2018
👁️
Просмотров: 27
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Аннотация
ВВЕДЕНИЕ 8
1. ОПИСАНИЕ БИЗНЕС-ПРОЦЕССОВ И СБОР ДАННЫХ 9
1.1. Применение методологии CRISP-DM 9
1.2. Анализ бизнес процессов 12
1.3. Сбор данных 14
Вывод по главе 17
2. АНАЛИЗ И ПОДГОТОВКА СОБРАННЫХ ТОВАРОВ 18
2.1. Поиск выбросов в наименовании товара 20
2.2. Поиск выбросов в тексте категории товара 22
2.3. Поиск выбросов в тексте характеристик 24
2.4. Анализ каталога 28
Вывод по главе 32
3. ПОСТРОЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ 33
3.1. Постановка задачи машинного обучения 33
3.2. Метрики качества классификации 35
3.3. Кросс-валидация 38
3.4. Выбор метода построения модели машинного обучения 41
3.5. Выбор способа преобразования признаков 43
3.5.1. Преобразования TFIDF 43
3.5.2. Добавление биграмм 44
3.5.3. Нормализация текста 46
3.5.4. Выбор оптимальных параметром для стохастического градиентного
спуска 47
3.6. Очистка выборки с помощью обученной модели 49
Вывод по главе 50
4. ВВОД КЛАССИФИКАТОРА В ЭКСПЛУАТАЦИЮ, ОБЗОР ТЕХНОЛОГИЙ
И ДАЛЬНЕЙШЕЕ РАЗВИТИЕ 51
4.1. Ввод классификатора в эксплуатацию 51
4.2. Обзор использованных технологий 53
4.2.1. Jupyter notebook 53
4.2.2. Pandas 57
4.2.3. Docker 59
4.2.4. Другие технологии 62
4.3. Идеи для дальнейшего улучшения модели 64
Вывод по главе 66
ЗАКЛЮЧЕНИЕ 67
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 68

📖 Введение

Компания ProAnalytics занимается мониторингом цен на товары в интернет-магазинах, и предоставляет различные отчеты для магазинов конкурентов по собранным данным о товарах с различных сайтов. Для компании важно иметь собственный классификатор товаров, который на данный момент составляется вручную. Это представляет огромные затраты и большой объем рутинной работы. На данный момент существуют технологии, которые позволяют автоматизировать эту работу.
Данная выпускная квалификационная работа решает реальную проблему бизнеса. Цель этой работы — разработать систему, позволяющую гораздо быстрее классифицировать товары с минимальными затратами ресурсов.
Для достижения этой цели решено применить методы интеллектуального анализа, и были поставлены следующие задачи:
1) Изучить теоретические основы интеллектуального анализа данных, основные технологии и библиотеки для практического применения методов
2) Собрать и проанализировать данные
3) Выбрать метрику и способ оценки качества моделей
4) Построить и оценить различные модели
5) Внедрить модель в промышленное применение
В ходе разработке будут исследованы различные способы подготовки данных и методы машинного обучения.
Более того, данная работа может оказаться полезной не только для конкретной компании, поскольку в данной работе будет проведено исследование различных методов. Это может дать пользу последующим исследованиям в области обработки естественного языка.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В данной работе были рассмотрены все этапы разработки классификатора товаров.
Из данной работы я сделал вывод, что нельзя слепо верить утверждениям стейкхолдеров, а нужно проверять их, если есть возможность.
Большую часть работы составляет сбор и подготовка данных. На само моделирование требуется значительно меньше времени. Это связанно с тем, что реальные данные кроме ошибок содержат ещё множество аномалий и выбросов.
В данной работе были приведены результаты исследования различных способов подготовки признаков для моделей машинного обучения, и результаты моделирования с оценкой качества модели с помощью метрики F1.
В качестве методов машинного обучения были рассмотрены: стохастический градиентный спуск, метод опорных векторов, градиентный бустинг над решающими деревьями, и выбран наиболее подходящий.
В результате работы был разработан программный продукт, который работает на реальном предприятии и позволяет классифицировать товары в автоматическом режиме.
Так же была рассмотрена возможность дальнейшего развития данного продукта, и рассмотрен способ применения изображений товаров для улучшения качества классификации.
Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Гудфеллоу, Я., Бенджио, И., Глубокое обучение / Я. Гудфеллоу, И. Бенджио,- 2-е изд., пер. с анг. А. А. Слинкина, испр. - М.: ДМК Пресс, 2018. - 652 с.: цв. ил.
2. Блог компании ГК ЛАНИТ - CRISP-DM: проверенная методология для DataScientist-ов.- 2017 - https://habr.com/company/lanit/blog/328858/
3. Введение в анализ текстовой информации с помощью Python и методов машинного обучения.- 2013 -https://habr.com/post/205360/
4. Морфологический анализатор pymorphy2, Руководство -
http://pymorphy2.readthedocs.io/en/0.1/user/index.html
5. Предварительно обученные нейронные сети в Keras.-2017 -
https://www.asozykin.ru/deep_learning/2017/06/06/keras-pretrained-networks
6. L.J.P. vander Maatenand G.E. Hinton. Visualizing High-Dimensional Data Using t-SNE. Journal of Machine Learning Research 9 (Nov): 2579 -2605, 2008. - http://lvdmaaten.github.io/publications/papers/JMLR_2008.pdf
7. G.E. Hintonand S.T. Roweis. StochasticNeighborEmbedding. In Advancesin Neural Information. ProcessingSystems, volume 15, pages 833-840, Cambridge, MA, USA, 2002. The MIT Press. - http://www.cs.toronto.edu/~fritz/absps/sne.pdf
8. Pandas 0.22.0 documentation.- http://pandas.pydata.org/pandas-
docs/stable/index.html
9. Seaborn documentation. - http://seaborn.pydata.org
10. Documentation of scikit-learn 0.19.1 - http://scikit-
learn.org/stable/documentation.html
11. Model evaluation: quantifying the quality of predictions. - http://scikit- learn.org/stable/modules/model_evaluation.html#precision-recall-f-measure- metrics
12. Stochastic Gradient Descent. - http://scikit-learn.org/stable/modules/sgd.html
13. Support Vector Machines. - http://scikit-learn.org/stable/modules/svm.html...20

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ