📄Работа №215317

Тема: АВТОМАТИЧЕСКАЯ КАТЕГОРИЗАЦИЯ ТОВАРОВ ПО ИХ НАИМЕНОВАНИЯМ

📝
Тип работы Дипломные работы, ВКР
📚
Предмет информатика
📄
Объем: 63 листов
📅
Год: 2022
👁️
Просмотров: 17
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

ВВЕДЕНИЕ 4
1. ОБЗОР МЕТОДОВ РЕШЕНИЯ ЗАДАЧИ 6
1.1. Rule-based systems 6
1.2. Методы машинного обучения 7
1.3. Модель искусственного нейрона 11
1.4. Метрики качества 12
1.5. Векторные представления слов и документов 16
1.5.1. Статистические методы представления слов и документов .. 17
1.5.2. Word2Vec 20
1.5.3. Doc2Vec 23
1.5.4. Контекстно-зависимые векторные представления 24
1.6. Выводы по первой главе 24
2. ОСНОВНЫЕ АРХИТЕКТУРЫ НЕЙРОННЫХ СЕТЕЙ 26
2.1. Многослойные нейронные сети 26
2.2. Рекуррентные нейронные сети 28
2.3. Трансформеры 33
2.4. BERT 37
2.5. Классификация с помощью нейронных сетей 39
2.6. Выводы по второй главе 42
3. РЕШЕНИЕ ЗАДАЧИ 43
3.1. Поиск датасета 43
3.2. Обработка датасета 44
3.3. Выбор модели 47
3.4. Обучение модели 48
3.5. Результаты 50
3.6. Выводы по третьей главе 52
ЗАКЛЮЧЕНИЕ 53
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 54
ПРИЛОЖЕНИЕ 57

📖 Введение

В современном мире производится, продается и покупается огромное количество разнообразных товаров. Для удобства поиска каждый товар обычно относят к одной из заранее определенных категорий (классов) – именованных обобщений некоторых свойств группы товаров. Но в такой ситуации каждому товару необходимо вручную соотнести нужную категорию. В случае небольшого числа товаров это не составляет труда, но с ростом числа товаров возникает проблема автоматической категоризации каталога товаров.
Также на данную проблему можно посмотреть с другой стороны. Допустим, что уже имеется некоторая (возможно ручная) категоризация каталога, но необходимо перевести её в другую систему категорий. Данная проблема актуальна для государственных учреждений, в которых государственные закупки делаются в соответствии с общероссийским классификатором продукции по видам экономической деятельности – ОКПД2.
Еще одно возможное применение автоматической категоризации состоит в том, чтобы не непосредственно производить классификацию, но предложить пользователю наиболее вероятные категории товара. Такой подход упрощает категоризацию для пользователя и наиболее актуален при добавлении новых товаров в различные интернет-магазины.
Задача классификации текстов имеет два основных подхода решения. Первый подход состоит в написании правил, по которым определяется категория товара. Данный подход индивидуален для каждой задачи и требует ручного труда для составления правил, которые к тому же впоследствии нужно обслуживать, поэтому большого распространения rule-based методы не получили.
Второй подход состоит в использовании методов машинного обучения. Существует большое количество разнообразных методов обучения, но в последнее время наибольшее распространение получили методы, использующие в своей основе нейронные сети [22].
Среди нейросетевых методов явными фаворитами являются модели, построенные на архитектуре Transformer [16]. Для создания и обучения моделей используются разные языки программирования, но основным языком является Python. Язык Python используется вместе с его библиотеками.
Для анализа данных обычно применяется библиотека pandas, для работы с нейронными сетями – библиотеки tensorflow (keras) и PyTorch. Также существует проект под названием Hugging Face, в котором каждый желающий может выложить свою обученную модель в открытый доступ или использовать модели сообщества для решения своих задач.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Выпускная квалификационная работа посвящена разработке модели для автоматической категоризации каталога товаров.
В работе был произведен анализ основных подходов к решению задачи. Описаны главные концепции и определения машинного обучения. Были рассмотрены основные типы классификаторов, формализовано понятие искусственного нейрона. Отдельный раздел посвящен оценке качества моделей при решении задач классификации. Изучены различные решения проблемы векторного представления текстовых данных.
Рассмотрены основные типы архитектур нейронных сетей, использующихся при решении задач обработки естественного языка. Дается анализ использования нейронных сетей для решения задач классификации, описан подход переноса знаний между моделями – Transfer Learning.
Решена практическая задача классификации на примере каталога именованных товаров. Подробно расписаны стадии решения задачи, такие как: поиск и обработка датасета, выбор и обучение модели. Произведен анализ результатов полученной модели.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Розенблатт, Ф. Принципы нейродинамики: Перцептроны и теория механизмов мозга / Ф. Розенблатт – Москва: Мир, 1965.
2. Шитиков, В.К. Классификация, регрессия и другие алгоритмы Data Mining с использованием R / В.К. Шитиков, С.Э. Мастицкий –Лондон: Б.и., 2014.
3. Elman, J. Finding structure in time / J. Elman – San Diego: Cognitive Science, 1990.
4. Rumelhart, D. Parallel Distributed Processing: Explorations in the Microstructures of Cognition / D. Rumelhart – Cambridge, MA: MIT Press
5. Cui, Z. Stacked Bidirectional and Unidirectional LSTM Recurrent Neural Network for Network-wide Traffic Speed Prediction / R. Ke, Z. Pu, Y. Wang – // Proceedings of Transportation Research Part C Emerging Technologies. – 2020.
6. Devlin, J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin, K. Lee, K. Toutanova // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. – 2019. – C. 1-40.
7. Fernández Delgado, M. Do we Need Hundreds of Classifiers to Solve Real World Classification Problems / M. Fernández Delgado, E. Cernadas, S. Barro, D Amorim // The Journal of Machine Learning Research. – 2014.
8. Kowsari, K. Text Classification Algorithms: A Survey / K. Kowsari, K. Meimandi, M. Heidarysafa, S. Mendu, L. Barner, D. Brown // Proceedings of Workshop at MDPI. – 2019.
9. Le, Q. Distributed Representations of Sentences and Documents / Q. Le, T. Mikolov // Proceedings of the 31st International Conference on Machine Learning. – 2014.
10. Li, Q. A Survey on Text Classification: From Traditional to DeepLearning // Q. Li, H. Peng, J. Li, C. Xia, R. Yang, L. Sun, P. Yu, L. He // Proceedings of Workshop at ACM Transactions on Intelligent Systems and Technology. – 2022.
11. Loshchilov, I. Decoupled Weight Decay Regularization / I. Loshchilov, F. Hutter // Proceedings of Workshop at ICLR. – 2019.
12. Mikolov, T. Efficient estimation of word representations in vector space / T. Mikolov, K. Chen. // Proceedings of Workshop at ICLR. – 2013. – С. 1–12.
13. Minaee, S. Deep Learning Based Text Classification: A Comprehensive Review / N. Kalchbrenner, E. Cambria, N. Nikzad, M. Chenaghlu, J. Gao // Proceedings of ACM Computing Surveys. – 2022.
14. Pascanu, R. On the difficulty of training recurrent neural networks / R. Pascanu, T. Mikolov, Y. Bengio // Proceedings of the 30th International Conference on Machine Learning. – 2013.
15. Schmidhuber, J. Long Short-Term Memory / J. Schmidhuber, S. Hochreiter // Neural Computation. – 1997.
16. Vaswani, A. Attention is all you need / A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, I. Polosukhin // Proceedings of the NeurIPS. – 2017. – С. 1-7.
17. Zhang, Z. Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels / Z. Zhang, Mert R. Sabuncu // Proceedings of the NeurIPS. – 2018.
18. Дерево решений // Wikipedia, доступ:
https://ru.wikipedia.org/wiki/Дерево_решений(дата обращения – 3 марта 2022).
19. Искусственный интеллект // Wikipedia, доступ: https://en.wikipedia.org/wiki/Artificial_intelligence(дата обращения – 18 мая 2022).
20. Лекции по искусственным нейронным сетям // MachineLearning, доступ: http://www.machinelearning.ru/wiki/images/c/cc/voron-ml-neuralnets.pdf(дата обращения – 5 марта 2022).
21. Маленький и быстрый BERT для русского языка // Habr, доступ: https://habr.com/ru/post/562064/(дата обращения – 23 апреля 2022).
22. Математические методы обучения по прецендентам // MachineLearning, доступ: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf
(дата обращения – 9 марта 2022).
23. Машина опорных векторов // MachineLearning, доступ:
http://www.machinelearning.ru/wiki/index.php?title=Метод_опорных_векторов (дата обращения – 3 марта 2022).
24. Метод ближайших соседей // MachineLearning, доступ:
http://www.machinelearning.ru/wiki/index.php?title=Метод_ближайшего_соседа (дата обращения – 12 марта 2022).
25. Учебник по машинному обучению от Школы анализа данных // ml- handbook, доступ: https://ml-handbook.ru/(дата обращения – 16 апреля 2022).
26. A Survey on Contextual Embeddings // arxiv, доступ: https://arxiv.org/abs/2003.07278(дата обращения – 25 мая 2022).
27. Doccano // GitHub, доступ: https://github.com/doccano/doccano(дата обращения – 14 марта 2022).
28. Deep Learning for Natural Language Processing // logic.pdmi.ras.ru, доступ: https://logic.pdmi.ras.ru/~sergey/slides/N16_AIUkraineDLNLP.pdf(дата обращения – 28 апреля 2022).
29. cointegrated/rubert-tiny // Hugging Face, доступ: https://huggingface.co/cointegrated/rubert-tiny(дата обращения – 12 мая 2022).
30. Layer normalization // arxiv, доступ: https://arxiv.org/pdf/1607.06450(дата обращения – 16 мая 2022).
31. Macro F1 and Macro F1 // arxiv, доступ: https://arxiv.org/abs/1911.03347(дата обращения – 8 апреля 2022).
32. The Hadamard Product // buzzard.ups.edu, доступ:
http://buzzard.ups.edu/courses/2007spring/projects/million-paper.pdf (дата
обращения – 2 апреля 2022).

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ