Применение информационных технологий в различных областях человеческой деятельности с каждым годом набирает обороты. Предприятия автоматизируют свое производство, организации преобразовывают документооборот в электронную форму, средства массовой информации публикуют электронные газеты или новостные сайты. Согласно российскому законодательству, при создании государственных информационных ресурсов обязательным требованием является использование классификаторов.
Классификатор - это алгоритм распределения входных данных по заданным классам. В 2019 году классификаторы используются в задачах фильтрации спама, создания рекомендательных систем, анализа тональности текста, улучшения работы поисковой системы, определения диагноза в особых медицинских диагностиках - список областей применения классификаторов обширен.
Сайт Казанского федерального университета содержит медиа-портал. Несмотря на наличие собственной классификации медиа-документов, материалы подгружаются вручную, не используется определенный классификатор - по данной причине текущая деятельность университета не раскрывается в полном объеме.
Цель данной магистерской работы - решить проблему отображения наиболее полной и актуальной информации о Казанском федеральном университете.
Для достижения указанной цели было принято решение создать информационную систему, которая будет собирать медиа-документы об университете и классифицировать их.
Задачи данной работы:
• с применением метапоисковой системы собрать медиа-документы из различных новостных источников и извлечь основную информацию;
• провести обработку полученной информации для улучшения классификации;
• создать классификатор на базе одного из методов текстовой классификации;
• классифицировать медиа-документы с помощью созданного классификатора и отобразить результаты.
Метапоисковая система является распространенным методом информационного поиска, которая опрашивает разные поисковые системы для улучшения полноты и качества поиска, что обуславливает его применение в данной работе.
Для определения оптимального метода текстовой классификации будут созданы несколько классификаторов. В ходе эксперимента каждый классификатор обработает тестовую коллекцию документов с заранее определенными классами. Классификатор с наилучшими результатами теста в дальнейшем будет выбран в качестве основного.
Структура данной работы организована в соответствии с поставленными задачами:
• В главе 2 раскрывается создание метапоисковой системы и ее исследование. Описывается алгоритм работы метапоисковика и ее структура.
• В главе 3 описываются и исследуются методы и этапы обработки текста.
• В главе 4 изучаются различные методы классификации текста, приводятся описания алгоритмов работы классификаторов и проводятся эксперименты по их тестированию.
• В главе 5 проводится классификация медиа-документов, отображаются результаты.
Результаты исследования были представлены на Международной научно-практической конференции «Электронная Казань - 2019» 22 мая 2019 года.
В результате данной работы была создана система классификации медиа-документов, которая позволяет собирать и классифицировать документы, содержащие актуальную информацию о Казанском федеральном университете.
В процессе создания системы были проведены следующие исследования:
• Изучение различных методов и средств сбора информации.
• Анализ методов обработки текстовой информации и средств лингвистического анализа.
• Изучение методов классификации текстовых документов и алгоритмов их работы.
В ходе экспериментов были получены следующие результаты:
• Был создан метапоисковик, который собирает максимально возможное количество уникальных релевантных документов о Казанском федеральном университете.
• Медиа-документы проходят этапы лексического анализа, удаления стоп-слов, стемминга и векторизации c применением метода TF-IDF для достижения наилучшей классификации.
• В ходе обучения классификаторов наилучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов», «Метод дерева решений» и «Перцептрон (нейронная сеть)».
• В ходе классификации тестовой коллекции медиа-документов лучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов» и «Метод k-ближайших соседей».
В дальнейшем планируется улучшение системы классификации медиадокументов путем увеличения и улучшения обучающей коллекции документов, внедрение дополнительных классов, которые будут классифицировать документы по персоналиям, и проведение работ по улучшению классификатора, использующего нейронные сети. В будущем планируется внедрение данной системы в сайт Казанского (Приволжского) федерального университета.