Тема: СИСТЕМА КЛАССИФИКАЦИИ МЕДИА-ДОКУМЕНТОВ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1. ОБЗОР НАУЧНЫХ ПУБЛИКАЦИЙ И РАЗРАБОТОК 7
1.1. Обзор научных публикаций 7
1.2. Обзор существующих разработок 8
1.3. Постановка задачи 12
ГЛАВА 2. СБОР МЕДИА-ДОКУМЕНТОВ 14
2.1. Методы сбора информации 14
2.2. Алгоритм работы метапоисковика 17
2.3. Инструментарий 18
2.4. Эксперименты 18
ГЛАВА 3. ПРЕДОБРАБОТКА ТЕКСТА 21
3.1. Лексический анализ 21
3.2. Удаление стоп-слов 21
3.3. Стемминг 22
3.4. Векторизация 23
ГЛАВА 4. СОЗДАНИЕ КЛАССИФИКАТОРОВ 26
4.1. Наивный байесовский классификатор(ИБС) 26
4.2. Метод опорных векторов 27
4.3. Дерево решений 28
4.4. Метод k-ближайших соседей 28
4.5. Нейронные сети 29
4.6. Программная реализация 33
4.6.1. Инструментарий 33
4.6.2. Классы 34
4.6.3. Функционал и архитектура классификаторов 35
4.7. Эксперимент 39
ГЛАВА 5. КЛАССИФИКАЦИЯ 41
5.1. Оценка классификации 41
5.2. Программная реализация 44
ЗАКЛЮЧЕНИЕ 48
СПИСОК ЛИТЕРАТУРЫ 50
ПРИЛОЖЕНИЯ 53
Приложение 1
📖 Введение
Классификатор - это алгоритм распределения входных данных по заданным классам. В 2019 году классификаторы используются в задачах фильтрации спама, создания рекомендательных систем, анализа тональности текста, улучшения работы поисковой системы, определения диагноза в особых медицинских диагностиках - список областей применения классификаторов обширен.
Сайт Казанского федерального университета содержит медиа-портал. Несмотря на наличие собственной классификации медиа-документов, материалы подгружаются вручную, не используется определенный классификатор - по данной причине текущая деятельность университета не раскрывается в полном объеме.
Цель данной магистерской работы - решить проблему отображения наиболее полной и актуальной информации о Казанском федеральном университете.
Для достижения указанной цели было принято решение создать информационную систему, которая будет собирать медиа-документы об университете и классифицировать их.
Задачи данной работы:
• с применением метапоисковой системы собрать медиа-документы из различных новостных источников и извлечь основную информацию;
• провести обработку полученной информации для улучшения классификации;
• создать классификатор на базе одного из методов текстовой классификации;
• классифицировать медиа-документы с помощью созданного классификатора и отобразить результаты.
Метапоисковая система является распространенным методом информационного поиска, которая опрашивает разные поисковые системы для улучшения полноты и качества поиска, что обуславливает его применение в данной работе.
Для определения оптимального метода текстовой классификации будут созданы несколько классификаторов. В ходе эксперимента каждый классификатор обработает тестовую коллекцию документов с заранее определенными классами. Классификатор с наилучшими результатами теста в дальнейшем будет выбран в качестве основного.
Структура данной работы организована в соответствии с поставленными задачами:
• В главе 2 раскрывается создание метапоисковой системы и ее исследование. Описывается алгоритм работы метапоисковика и ее структура.
• В главе 3 описываются и исследуются методы и этапы обработки текста.
• В главе 4 изучаются различные методы классификации текста, приводятся описания алгоритмов работы классификаторов и проводятся эксперименты по их тестированию.
• В главе 5 проводится классификация медиа-документов, отображаются результаты.
Результаты исследования были представлены на Международной научно-практической конференции «Электронная Казань - 2019» 22 мая 2019 года.
✅ Заключение
В процессе создания системы были проведены следующие исследования:
• Изучение различных методов и средств сбора информации.
• Анализ методов обработки текстовой информации и средств лингвистического анализа.
• Изучение методов классификации текстовых документов и алгоритмов их работы.
В ходе экспериментов были получены следующие результаты:
• Был создан метапоисковик, который собирает максимально возможное количество уникальных релевантных документов о Казанском федеральном университете.
• Медиа-документы проходят этапы лексического анализа, удаления стоп-слов, стемминга и векторизации c применением метода TF-IDF для достижения наилучшей классификации.
• В ходе обучения классификаторов наилучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов», «Метод дерева решений» и «Перцептрон (нейронная сеть)».
• В ходе классификации тестовой коллекции медиа-документов лучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов» и «Метод k-ближайших соседей».
В дальнейшем планируется улучшение системы классификации медиадокументов путем увеличения и улучшения обучающей коллекции документов, внедрение дополнительных классов, которые будут классифицировать документы по персоналиям, и проведение работ по улучшению классификатора, использующего нейронные сети. В будущем планируется внедрение данной системы в сайт Казанского (Приволжского) федерального университета.



