Применение информационных технологий в различных областях человеческой деятельности с каждым годом набирает обороты. Предприятия автоматизируют свое производство, организации преобразовывают документооборот в электронную форму, средства массовой информации публикуют электронные газеты или новостные сайты. Согласно российскому законодательству, при создании государственных информационных ресурсов обязательным требованием является использование классификаторов.
Классификатор - это алгоритм распределения входных данных по заданным классам. В 2019 году классификаторы используются в задачах фильтрации спама, создания рекомендательных систем, анализа тональности текста, улучшения работы поисковой системы, определения диагноза в особых медицинских диагностиках - список областей применения классификаторов обширен.
Сайт Казанского федерального университета содержит медиа-портал. Несмотря на наличие собственной классификации медиа-документов, материалы подгружаются вручную, не используется определенный классификатор - по данной причине текущая деятельность университета не раскрывается в полном объеме.
Цель данной магистерской работы - решить проблему отображения наиболее полной и актуальной информации о Казанском федеральном университете.
Для достижения указанной цели было принято решение создать информационную систему, которая будет собирать медиа-документы об университете и классифицировать их.
Задачи данной работы:
• с применением метапоисковой системы собрать медиа-документы из различных новостных источников и извлечь основную информацию;
• провести обработку полученной информации для улучшения классификации;
• создать классификатор на базе одного из методов текстовой классификации;
• классифицировать медиа-документы с помощью созданного классификатора и отобразить результаты.
Метапоисковая система является распространенным методом информационного поиска, которая опрашивает разные поисковые системы для улучшения полноты и качества поиска, что обуславливает его применение в данной работе.
Для определения оптимального метода текстовой классификации будут созданы несколько классификаторов. В ходе эксперимента каждый классификатор обработает тестовую коллекцию документов с заранее определенными классами. Классификатор с наилучшими результатами теста в дальнейшем будет выбран в качестве основного.
Структура данной работы организована в соответствии с поставленными задачами:
• В главе 2 раскрывается создание метапоисковой системы и ее исследование. Описывается алгоритм работы метапоисковика и ее структура.
• В главе 3 описываются и исследуются методы и этапы обработки текста.
• В главе 4 изучаются различные методы классификации текста, приводятся описания алгоритмов работы классификаторов и проводятся эксперименты по их тестированию.
• В главе 5 проводится классификация медиа-документов, отображаются результаты.
Результаты исследования были представлены на Международной научно-практической конференции «Электронная Казань - 2019» 22 мая 2019 года.
В результате данной работы была создана система классификации медиа-документов, которая позволяет собирать и классифицировать документы, содержащие актуальную информацию о Казанском федеральном университете.
В процессе создания системы были проведены следующие исследования:
• Изучение различных методов и средств сбора информации.
• Анализ методов обработки текстовой информации и средств лингвистического анализа.
• Изучение методов классификации текстовых документов и алгоритмов их работы.
В ходе экспериментов были получены следующие результаты:
• Был создан метапоисковик, который собирает максимально возможное количество уникальных релевантных документов о Казанском федеральном университете.
• Медиа-документы проходят этапы лексического анализа, удаления стоп-слов, стемминга и векторизации c применением метода TF-IDF для достижения наилучшей классификации.
• В ходе обучения классификаторов наилучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов», «Метод дерева решений» и «Перцептрон (нейронная сеть)».
• В ходе классификации тестовой коллекции медиа-документов лучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов» и «Метод k-ближайших соседей».
В дальнейшем планируется улучшение системы классификации медиадокументов путем увеличения и улучшения обучающей коллекции документов, внедрение дополнительных классов, которые будут классифицировать документы по персоналиям, и проведение работ по улучшению классификатора, использующего нейронные сети. В будущем планируется внедрение данной системы в сайт Казанского (Приволжского) федерального университета.
1. ABBYY FlexiCapture. URL: https://www.abbvv.com/ru-ru/flexicapture/ (дата обращения: 28.05.2019)
2. ABBYY Smart Classifier. URL: https: //www. abbvv. com/ru-
ru/smartclassifier/ (дата обращения: 28.05.2019)
3. Aleksander I., Morton H. An Introduction to Neural Computing. — London: Chapman&Hall, 1990.
4. Panchenko A. Technology of the automated thesaurus construction for Information Retrieval //Intelligence Systems and Technologies, Bauman Moscow State Technical University, Moscow. - 2009. - Т. 9. - С. 124-140.
5. Sequental - Keras Documentation. URL: https://keras.io/models/sequential/ (дата обращения: 20.10.2018)
6. Sklearn.pipeline.Pipeline - scikit-learn 0.21.2 documentation. URL: https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html (дата обращения: 11.10.2018)
7. Богославский С. Н. Область применения искусственных нейронных сетей и перспективы их развития //Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. -
2007. - №. 27.
8. Брезицкая В. В., Зеленков П. В., Прохорович Г. А., Перанцева А. В., Храпунова В. В. Классификация информационно-поисковых систем // Решетневские чтения. 2015. Т. 2. №12. С. 22-23
9. Воробжанский Н.Н. Использование метода опорных векторов в классификации изображений // Перспективы науки. 2017. №5 (92). С.11-18
10. Голицына О. Л., Максимов Н. В., Попов И. И. Базы данных //М.: Форум, Сер: Профессиональное образование. - 2006, С. 10.
11. Кафтанников Игорь Леопольдович, Парасич Андрей Викторович Особенности применения деревьев решений в задачах классификации //
Вестник ЮУрГУ. Серия: Компьютерные технологии, управление,
радиоэлектроника. 2015. №3. С.26-32
12. Мониторинг социальных медиа. URL: http://www.rco.ru/7page id=4186 (дата обращения: 28.05.2019)
13. Нгуен Ба Нгок, Тузовский Анатолий Федорович Классификация текстов на основе оценки семантической близости терминов // Известия ТПУ. 2012. №5. URL: https://cyberlemnka.ru/artide/n/klassifikatsiya-tekstov-na- osnove-otsenki-semanticheskoy-blizosti-terminov (дата обращения: 14.02.2019).
14. Программы анализа и лингвистической обработки текстов. URL: https://rvb.ru/soft/catalogue/c01 .html (дата обращения: 28.05.2019)
15. Сервис классификации текстовых документов. URL: https://bayes.pro/ru/products/servis-klassiflkatsii-tekstovykh-dokumentov-119/ (дата обращения: 28.05.2019)
16. Сервисы интеллектуального распознавания, классификации и
извлечения данных DIRECTUM Ario. URL:
https://www.directum.ru/solution/30196902 (дата обращения: 28.05.2019)
17. Стеммер Портера для русского языка, URL: http://snowball.tartarus.org/algorithms/russian/stemmer.html (Дата обращения:
18.03.2019) 5
18. Толмачев Р.В., Воронова Л.И. ТЕМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ СТАТЕЙ НОВОСТНОГО РЕСУРСА МЕТОДАМИ ЛАТЕНТНОСЕМАНТИЧЕСКОГО АНАЛИЗА // Современные наукоемкие технологии. -
2017. - № 3. - С. 55-60.
19. Федотов Д.В. О решении задачи классификации методом опорных векторов // Решетневские чтения. 2013. №17. С.77-79
20. Чуриков Н. С. Классификация новостей сайта правительства Российской Федерации // Молодой ученый. — 2017. — №22. — С. 145-148.
21. Шабанов В. И., Андреев А. М. Метод классификации текстовых документов, основанный на полнотекстовом поиске // Труды первого российского семинара по оценке методов информационного поиска. Под ред. И.С. Некрестьянова - СПб.: НИИ Химии СпбГУ, 2003.
22. Шарапов Р.В., Сидоренко Е.В. Мета-поиск в сети Интернет - взаимодействие с поисковыми системами // Алгоритмы, методы и системы обработки данных. 2002. №7. С.102
23. Шевелев Олег Геннадьевич, Петраков Алексей Владимирович Классификация текстов с помощью деревьев решений и нейронных сетей прямого распространения // Вестник Томского государственного университета. 2006. №290. URL: https://cyberlenmka.ru/artide/n/klassifikatsiya- tekstov-s-pomoschyu-dereviev-resheniy-i-neyronnyh-setey-pryamogo- rasprostraneniya (дата обращения: 27.05.2019).