Содержание 2
Введение 3
Постановка задачи 4
Обзор литературы 5
1 Анализ предметной области 7
1.1 Анализ существующих решений 7
2 Классификация текста 11
2.1 Предобработка и векторизация текста 12
2.2 Разметка и балансировка данных для обучения 18
2.3 Методы классификации 19
3 Процесс разработки 23
3.1 Создание датасета 23
3.2 Предобработка текста 24
3.3 Векторизация текста 25
3.4 Классификация текста 29
4 Результаты исследования 33
Выводы 36
Заключение 36
Список литературы 37
В настоящее время существует множество новостных сайтов, генерирующих содержимое разностороннего характера. Для объединения всей информации в одном удобном пользователю месте, были созданы новостные агрегаторы. Однако для разделения новостей по темам они либо используют ручной подход, либо ориентируются на то, к какой теме принадлежит новость в оригинальном источнике. В первом случае разметка будет весьма субъективна, к тому же могут допускаться ошибки. Также наличие большого объема источников пропорционально увеличивает необходимый штат сотрудников. Во втором случае необходимо настраивать точную сеть тематического соответствия между новостным агрегатором и каждым сайтом в отдельности. А также исключается возможность использования ресурсов, на которых отсутствует тематическая разметка.
Актуальность работы заключается в исследовании методов автоматического разделения коллекции новостей на заранее заданные тематики. Это поможет автоматизировать новостные агрегаторы и позволит им пользоваться новостными ресурсами без предварительной разметки.
Объект исследования - применение методов классификации для предоставления пользователю средств навигации по коллекции документов.
Предмет исследования - разбиение новостных документов на темы при помощи классификации и векторных моделей.
Цель работы - сравнение методов машинного обучения в задаче классификации и векторизации новостных статей.
В данной работе были исследованы и применены на практике ряд методов по предобработке, векторизации и классификации текстовых документов. В ходе сравнения алгоритмов векторизации был выявлен один - TF-IDF, при котором достигались высокие результаты при любом из представленных методов классификации. Был найден самый оптимальный классификатор для задачи агрегации новостных статей - Bert_base. Однако классические методы машинного обучения также показали высокие результаты.
Данное исследование имеет перспективы в дальнейшей работе. Существует множество методов машинного обучения, нейросетевых архитектур и векторизаторов, которые можно рассмотреть в данной задаче, а также каждый год появляются новые, более инновационные и прорывные решения.
[1] Bird, Steven, Ewan Klein, Edward Loper. Natural Language Processing with Python - O'Reilly Media Inc, 2009. - 502c.
[2] Kamran Kowsari, Kiana Jafari Meimandi, Mojtaba Heidarysafa, Sanjana Mendu, Laura Barnes, Donald Brown. Text Classification Algorithms: A Survey - 2019
[3] Chi Sun, Xipeng Qiu, Yige Xu, Xuanjing Huang. How to Fine-Tune BERT for Text Classification? - 2020
[4] Г Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск. : Пер. с англ. - М. : ООО “И.Д. Вильямс”, 2014 - 528c
[5] Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
[6] Sousuke Amasaki, Pattara Leelaprute. The Effects of Vectorization Methods on Non-Functional Requirements Classification - 2018
[7] Margarita Bugueno, Marcelo Mendoza. Learning to combine classifiers outputs with the transformer for text classification - 2020
[8] Jurafsky, Daniel; H. James, Martin. Vector Semantics and Embeddings - 2000
[9] V. Srividhya, R. Anitha. Evaluating Preprocessing Techniques in Text Categorization - 2010
[10] С.В. Корелов, А.М. Петров, Л.Ю. Ротков, А.А. Горбунов. Предобработка текстов электронных писем в задаче обнаружения спама - 2020
[11] Малахов Д. П. Методы автоматической рубрикации текстовых документов предметной области // Научный семинар Института системного программирования РАН, 2015
[12] Daniel Cera, Yinfei Yanga, Sheng-yi Konga, Nan Huaa, Nicole Limtiacob, Rhomni St. Johna, Noah Constanta, Mario Guajardo-Cespedes, Steve Yuanc, Chris Tara, Yun-Hsuan Sunga, Brian Stropea, Ray Kurzweila. Universal Sentence Encoder - 2018
[13] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - 2019