Введение 4
Глава 1 Анализ современных подходов по классификация текста в бизнес- аналитике 7
1.1 Обзор литературных источников по классификации текста в
бизнес-аналитике 7
1.2 Моделирование процесса классификации текста 10
Глава 2 Проектирование системы для автоматизированной классификации текста 14
2.1 Описание задачи классификации 14
2.2 Предобработка и векторизация текста 16
2.3 Разметка и балансировка данных для обучения 23
2.4 Применяемые методы классификации 24
Глава 3 Разработка приложения для классификации текста 28
3.1 Особенности реализации программного модуля 28
3.3. Результаты тестирования приложения 34
Заключение 37
Список используемой литературы и используемых источников 39
Классификация текстовой информации является одной из часто решаемых задач в области бизнес-аналитики. Например, когда требуется провести анализ оценки качества предоставляемых компанией услуг, обычно проводится классификация текста отзывов клиентов, которые они оставляют в различных социальных сетях и на форумах. При этом под классификацией понимается не только маркировка положительный отрицательной и отрицательных отзывов, но распознавание темы отзыва, т.е. определение конкретного типа услуги, на который написан отзыв.
На основе классификации текста отзывов можно определить:
- на какую услугу клиенты чаще всего обращают внимание;
- что клиентов подталкивает к использованию услуг компании;
- чем клиенты недовольны;
- какие проблемы возникают у клиентов при получении услуг компании;
- какое соотношение довольных и недовольных клиентов.
В широком смысле, процессы бизнес-аналитики направлены на превращение необработанных данных взятых из различных источников в наглядное представление, на основе которого можно сделать полезные выводы для оптимизации деятельности компании. Бизнес аналитика включает в себя выполнение четырех основных этапов - сбор данных, их анализ, визуализация и принятие на их основе управленческих решений.
На этапе сбора данных осуществляется агрегирование структурированных и неструктурированных данных из различных источников информации. Обычно на этом этапе используется метод ETL (Extract, Transform, Load). Собранные данные преобразуются в модель, расположенную в хранилище данных. При этом для хранилища выбирается такая структура данных, которая оптимизирована для быстрого извлечения и анализа информации с использованием специальных программных комплексов.
На втором этапе используются специальные алгоритмы, предназначенные для обнаружения закономерностей в данных. Именно на этом этапе в случае необходимости решается задача классификации текстовой информации. И большинство исследований из области бизнес- аналитики направлено на повышение степени автоматизации выполнения этого этапа.
Третий этап направлен на формирование отчета c бизнес-аналитикой, основанного на использовании средств визуализации данных. При визуализации могут применяться интерактивные информационные панели, графики и диаграммы различных видов.
Четвертый этап является заключительным, и он направлен на устранение неэффективностей, возникающих в основной деятельности компании, выполнение стратегического планирования. Благодаря выполнению четвертого этапа компания осуществляет адаптацию своей деятельности к изменениям внешней бизнес среды.
Данная бакалаврская работа направлена на повышения степени автоматизации выполнения второго этапа бизнес-анализа. При этом для рассмотрения выбрана задача классификации текста. А в качестве инструмента для повышения степени автоматизации будут применяться алгоритмы машинного обучения.
Цель выпускной квалификационной работы - разработка универсальной системы классификации текстов, обеспечивающей повышение уровня автоматизации бизнес-процессов при анализе текстовой информации.
Для достижения данной цели необходимо выполнить следующие задачи:
- анализ технологий классификации текстов;
- разработка алгоритм классификации текста;
- реализация и тестирование программного обеспечения для классификации текстов.
Методы исследования - методы и технологии проектирования информационных систем, технологии программирования.
Практическая значимость бакалаврской работы заключается в разработке универсальной программной системы, обеспечивающей автоматизацию процесса классификации текста.
Данная работа состоит из введения, трех глав, заключения, списка используемой литературы и приложений.
В первой главе приводится описание решаемой задачи классификации текста, рассматриваются технологии решения данной задачи на основе алгоритмов машинного обучения. Также в данной главе приводятся построенные диаграммы по моделированию процесса классификации текста и дается обзор исследований на тему классификации текстов. В тексте главы даны ссылки на современные научные статьи по теме исследования.
Вторая глава посвящена разработке практических решений по классификации текстов. Приводится описание таких этапов как предобработка и векторизация текста, разметка и балансировка данных.
В третьей главе представлен процесс разработки программного обеспечения для классификации текста, а также приведены результаты тестирования программного обеспечения.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 41 страниц текста, 17 рисунков, 2 таблицы и 20 источников.
При выполнении бакалаврской работы были получены следующие результаты:
- в ходе анализа литературных источников установлено, что процесс бизнес-аналитики направлен на сбор, анализ и визуализацию данных о деятельности компании с целью принятия оптимальных управленческих решений;
- установлено, что классификация текста выполняется на втором этапе процесса бизнес-аналитики и может быть использована, например, для разметки отзывов и комментариев при анализе лояльности клиентов к компании;
- выявлено, что актуальной проблемой в области бизнес-аналитики является разработка и совершенствование программного обеспечения, способного автоматизировано выполнять процесс классификации текста с использованием современных подходов;
- проведено моделирование процесса классификации текста, в ходе которого построены схема процесса обучения текстового классификатора, схема процесса классификации нового документа, диаграмма классов текстового классификатора, диаграмма последовательности процесса взаимодействия текстового классификатора с аналитической информационной системой;
- установлено, что при классификации текста необходимо использовать сочетание методов двух разных видов: метода векторизации, который преобразует исходный текст документа в числовой вектор и метод классификации, который на основе числового вектора определяет класс текстового документа;
- проведен анализ особенностей работы таких методов векторизации как TF-IDF, Word2Vec, Doc2Vec, FastText, GloVe, Universal¬Sentence-Encoder, Bert, а также особенности работы таких методов классификации как LogisticRegression, SVM, Single-layer perceptron (SLP), Bert и GPT-2;
- установлено, что заранее не известно, какое сочетание методов покажет наилучшие результаты при классификации текста, поэтому разрабатываемое программное обеспечение направлено на сравнительное тестирование различных методов. При этом решаемая задача классификации - автоматизированное определение тематики текстовых документов (новостных статей).
- на языке программирования python разработан программный модуль, выполняющий загрузку, предобработку, классификацию текстовых данных и сравнение точности работы классификаторов.
- работа программного модуля протестирована на задаче автоматического определения тематики статей из новостных агрегарторов Google news и Yandex новости.
Таким образом, цель бакалаврской работы достигнута.
1. Агеев М. С. Автоматическая рубрикация текстов: методы и проблемы / М.С. Агеев, Б.В. Доброе, Н.В. Лукашевич // Ученые записки казанского государственного университета, 2008. - №4. - с. 25-41
2. Айвазян, С. А. Прикладная статистика: классификация и снижение размерности / Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. - М.: Финансы и статистика, 2009.
3. Корелов, С.В. Предобработка текстов электронных писем в задаче обнаружения спама / С.В. Корелов, А.М. Петров, Л.Ю. Ротков, А.А. Горбунов // Труды учебных заведений связи, 2020. - №4. - с. 80-91
4. Леоненков А. В. Объектно-ориентированный анализ и проектирование с использованием UML и IBM Rational Rose [Электронный ресурс] : учебное пособие. М. : Интернет-Университет Информационных Технологий (ИНТУИТ), Ай Пи Ар Медиа, 2020. 317 c. [Электронный ресурс]. URL: https://www.iprbookshop.ru/97554.html (дата обращения: 06.09.2021).
5. Маннинг, К.Д. Введение в информационный поиск / Г Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. : Пер. с англ. - М. : ООО “И.Д. Вильямс”, 2014 - 528c.
6. Мкртычев С.В., Гущина О.М., Очеповский А.В. Прикладная информатика. Бакалаврская работа [Электронный ресурс] : электрон. учеб- метод. пособие. Тольятти. ТГУ: Изд-во ТГУ, 2019. 1 оптический диск.
7. Bird, S. Natural Language Processing with Python / Steven Bird, Ewan Klein, Edward Loper. - Published by O’Reilly Media, Inc., 2009. - 502p.
8. Amasaki, S. The Effects of Vectorization Methods on Non-Functional Requirements Classification / Sousuke Amasaki, Pattara Leelaprute // 2018 44th Euromicro Conference on Software Engineering and Advanced Applications (SEAA), 2018. - IEEE, Prague, Czech Republic, 2018. - pp.55-78.
9. Bugueno, М. Learning to combine classifiers outputs with the transformer for text classification / Margarita Bugueno, Marcelo Mendoza // Intelligent Data Analysis, 2020 - № 24. - pp. 15-41
10. Business Process Model and Notation [Электронный ресурс]. URL:
https://www.omg.org/spec/BPMN/2.0/About-BPMN/ (дата обращения:
22.08.2021).
11. Gao, G. Research on Routing Selection Algorithm Based on Genetic Algorithm / Guohong Gao, Baojian Zhang, Xueyong Li, Jinna Lv // International Conference on Intelligent Computing and Information Science - International Conference, ICICIS 2011, Chongqing, China, January 8-9, 2011. Proceedings, Part II: Intelligent Computing and Information Science. - Springer-Verlag Berlin Heidelberg 2011. - pp. 353-358
12. Jurafsky, D. Speech and Languge Processing: An Introduction to Natural Language Proccerring, Computation Linguistics and Speech Recognition / Jurafsky, Daniel; H. James, Martin. - Stanford University, 2021. - 613 p.
13. Kowsari, K. Text Classification Algorithms: A Survey / Kamran Kowsari, Kiana Jafari Meimandi, Mojtaba Heidarysafa, Sanjana Mendu, Laura Barnes, Donald Brown // Machine Learning on Scientific Data and Information. - Cornell University, 2019. - pp. 100-168.
14. Lee, Z. A Hybrid Search Algorithm of Ant Colony Optimization and Genetic Algorithm Applied to Weapon-Target Assignment Problems / Zne-Jung Lee, Wen-Li Lee // International Conference on Intelligent Data Engineering and Automated Learning - 4th International Conference, IDEAL 2003, Hong Kong, China, March 21-23, 2003. Revised Papers: Intelligent Data Engineering and Automated Learning. - Springer-Verlag Berlin Heidelberg 2003. - pp. 278-285
15. Smith, M. Using Genetic Programming for Feature Creation with a Genetic Algorithm Feature Selector / Matthew G. Smith, Larry Bull // International Conference on Parallel Problem Solving from Nature - 8th International Conference, Birmingham, UK, September 18-22, 2004. Proceedings: Parallel Problem Solving from Nature - PPSN VIII. - Springer-Verlag Berlin
Heidelberg 2004. - pp. 1163-1171
16. Srividhya, V. Evaluating Preprocessing Techniques in Text Categorization / V. Srividhya, R. Anitha // International Journal of Computer Science and Application Issue 2010. - pp. 49-51.
17. Sun, C. How to Fine-Tune BERT for Text Classification? / Chi Sun, Xipeng Qiu, Yige Xu, Xuanjing Huang // Computation and Language, 2020. - Cornell University, 2020. - pp. 23-45.
18. Tian, B. A Feature Selection Algorithm for Big Data Based on Genetic Algorithm / Bo Tian, Weizhi Xiong // International Conference on Mechatronics and Intelligent Robotics - Proceedings of the International Conference on Mechatronics and Intelligent Robotics (ICMIR2017) - Volume 1: Recent Developments in Mechatronics and Intelligent Robotics. - Springer International Publishing AG 2018. - pp. 159-163
19. Zhang, Ch. An Effective Feature Selection Scheme via Genetic Algorithm Using Mutual Information / Chunkai Zhang, Hong Hu // International Conference on Fuzzy Systems and Knowledge Discovery - Second International Conference, FSKD 2005, Changsha, China, August 27-29, 2005, Proceedings, Part II : Fuzzy Systems and Knowledge Discovery. - Springer-Verlag Berlin Heidelberg 2005. - pp. E1-E1
20. Zhang, M. Using Back Propagation Algorithm and Genetic Algorithm to Train and Refine Neural Networks for Object Detection / Mengjie Zhang, Victor Ciesielski // International Conference on Database and Expert Systems Applications - DEXA 1999: Database and Expert Systems Applications. - Springer-Verlag Berlin Heidelberg 1999. - pp. 626-635