🔍 Поиск готовых работ

🔍 Поиск работ

Разработка классификатора товаров методами интеллектуального анализа данных

Работа №196874

Тип работы

Дипломные работы, ВКР

Предмет

экономика

Объем работы66
Год сдачи2018
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
14
Не подходит работа?

Узнай цену на написание


Аннотация
ВВЕДЕНИЕ 8
1. ОПИСАНИЕ БИЗНЕС-ПРОЦЕССОВ И СБОР ДАННЫХ 9
1.1. Применение методологии CRISP-DM 9
1.2. Анализ бизнес процессов 12
1.3. Сбор данных 14
Вывод по главе 17
2. АНАЛИЗ И ПОДГОТОВКА СОБРАННЫХ ТОВАРОВ 18
2.1. Поиск выбросов в наименовании товара 20
2.2. Поиск выбросов в тексте категории товара 22
2.3. Поиск выбросов в тексте характеристик 24
2.4. Анализ каталога 28
Вывод по главе 32
3. ПОСТРОЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ 33
3.1. Постановка задачи машинного обучения 33
3.2. Метрики качества классификации 35
3.3. Кросс-валидация 38
3.4. Выбор метода построения модели машинного обучения 41
3.5. Выбор способа преобразования признаков 43
3.5.1. Преобразования TFIDF 43
3.5.2. Добавление биграмм 44
3.5.3. Нормализация текста 46
3.5.4. Выбор оптимальных параметром для стохастического градиентного
спуска 47
3.6. Очистка выборки с помощью обученной модели 49
Вывод по главе 50
4. ВВОД КЛАССИФИКАТОРА В ЭКСПЛУАТАЦИЮ, ОБЗОР ТЕХНОЛОГИЙ
И ДАЛЬНЕЙШЕЕ РАЗВИТИЕ 51
4.1. Ввод классификатора в эксплуатацию 51
4.2. Обзор использованных технологий 53
4.2.1. Jupyter notebook 53
4.2.2. Pandas 57
4.2.3. Docker 59
4.2.4. Другие технологии 62
4.3. Идеи для дальнейшего улучшения модели 64
Вывод по главе 66
ЗАКЛЮЧЕНИЕ 67
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 68


Компания ProAnalytics занимается мониторингом цен на товары в интернет-магазинах, и предоставляет различные отчеты для магазинов конкурентов по собранным данным о товарах с различных сайтов. Для компании важно иметь собственный классификатор товаров, который на данный момент составляется вручную. Это представляет огромные затраты и большой объем рутинной работы. На данный момент существуют технологии, которые позволяют автоматизировать эту работу.
Данная выпускная квалификационная работа решает реальную проблему бизнеса. Цель этой работы — разработать систему, позволяющую гораздо быстрее классифицировать товары с минимальными затратами ресурсов.
Для достижения этой цели решено применить методы интеллектуального анализа, и были поставлены следующие задачи:
1) Изучить теоретические основы интеллектуального анализа данных, основные технологии и библиотеки для практического применения методов
2) Собрать и проанализировать данные
3) Выбрать метрику и способ оценки качества моделей
4) Построить и оценить различные модели
5) Внедрить модель в промышленное применение
В ходе разработке будут исследованы различные способы подготовки данных и методы машинного обучения.
Более того, данная работа может оказаться полезной не только для конкретной компании, поскольку в данной работе будет проведено исследование различных методов. Это может дать пользу последующим исследованиям в области обработки естественного языка.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе были рассмотрены все этапы разработки классификатора товаров.
Из данной работы я сделал вывод, что нельзя слепо верить утверждениям стейкхолдеров, а нужно проверять их, если есть возможность.
Большую часть работы составляет сбор и подготовка данных. На само моделирование требуется значительно меньше времени. Это связанно с тем, что реальные данные кроме ошибок содержат ещё множество аномалий и выбросов.
В данной работе были приведены результаты исследования различных способов подготовки признаков для моделей машинного обучения, и результаты моделирования с оценкой качества модели с помощью метрики F1.
В качестве методов машинного обучения были рассмотрены: стохастический градиентный спуск, метод опорных векторов, градиентный бустинг над решающими деревьями, и выбран наиболее подходящий.
В результате работы был разработан программный продукт, который работает на реальном предприятии и позволяет классифицировать товары в автоматическом режиме.
Так же была рассмотрена возможность дальнейшего развития данного продукта, и рассмотрен способ применения изображений товаров для улучшения качества классификации.


1. Гудфеллоу, Я., Бенджио, И., Глубокое обучение / Я. Гудфеллоу, И. Бенджио,- 2-е изд., пер. с анг. А. А. Слинкина, испр. - М.: ДМК Пресс, 2018. - 652 с.: цв. ил.
2. Блог компании ГК ЛАНИТ - CRISP-DM: проверенная методология для DataScientist-ов.- 2017 - https://habr.com/company/lanit/blog/328858/
3. Введение в анализ текстовой информации с помощью Python и методов машинного обучения.- 2013 -https://habr.com/post/205360/
4. Морфологический анализатор pymorphy2, Руководство -
http://pymorphy2.readthedocs.io/en/0.1/user/index.html
5. Предварительно обученные нейронные сети в Keras.-2017 -
https://www.asozykin.ru/deep_learning/2017/06/06/keras-pretrained-networks
6. L.J.P. vander Maatenand G.E. Hinton. Visualizing High-Dimensional Data Using t-SNE. Journal of Machine Learning Research 9 (Nov): 2579 -2605, 2008. - http://lvdmaaten.github.io/publications/papers/JMLR_2008.pdf
7. G.E. Hintonand S.T. Roweis. StochasticNeighborEmbedding. In Advancesin Neural Information. ProcessingSystems, volume 15, pages 833-840, Cambridge, MA, USA, 2002. The MIT Press. - http://www.cs.toronto.edu/~fritz/absps/sne.pdf
8. Pandas 0.22.0 documentation.- http://pandas.pydata.org/pandas-
docs/stable/index.html
9. Seaborn documentation. - http://seaborn.pydata.org
10. Documentation of scikit-learn 0.19.1 - http://scikit-
learn.org/stable/documentation.html
11. Model evaluation: quantifying the quality of predictions. - http://scikit- learn.org/stable/modules/model_evaluation.html#precision-recall-f-measure- metrics
12. Stochastic Gradient Descent. - http://scikit-learn.org/stable/modules/sgd.html
13. Support Vector Machines. - http://scikit-learn.org/stable/modules/svm.html...20


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ