Тип работы:
Предмет:
Язык работы:


СИСТЕМА КЛАССИФИКАЦИИ МЕДИА-ДОКУМЕНТОВ

Работа №40848

Тип работы

Магистерская диссертация

Предмет

информационные системы

Объем работы89
Год сдачи2019
Стоимость5700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
455
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
ГЛАВА 1. ОБЗОР НАУЧНЫХ ПУБЛИКАЦИЙ И РАЗРАБОТОК 7
1.1. Обзор научных публикаций 7
1.2. Обзор существующих разработок 8
1.3. Постановка задачи 12
ГЛАВА 2. СБОР МЕДИА-ДОКУМЕНТОВ 14
2.1. Методы сбора информации 14
2.2. Алгоритм работы метапоисковика 17
2.3. Инструментарий 18
2.4. Эксперименты 18
ГЛАВА 3. ПРЕДОБРАБОТКА ТЕКСТА 21
3.1. Лексический анализ 21
3.2. Удаление стоп-слов 21
3.3. Стемминг 22
3.4. Векторизация 23
ГЛАВА 4. СОЗДАНИЕ КЛАССИФИКАТОРОВ 26
4.1. Наивный байесовский классификатор(ИБС) 26
4.2. Метод опорных векторов 27
4.3. Дерево решений 28
4.4. Метод k-ближайших соседей 28
4.5. Нейронные сети 29
4.6. Программная реализация 33
4.6.1. Инструментарий 33
4.6.2. Классы 34
4.6.3. Функционал и архитектура классификаторов 35
4.7. Эксперимент 39
ГЛАВА 5. КЛАССИФИКАЦИЯ 41
5.1. Оценка классификации 41
5.2. Программная реализация 44
ЗАКЛЮЧЕНИЕ 48
СПИСОК ЛИТЕРАТУРЫ 50
ПРИЛОЖЕНИЯ 53
Приложение 1

Применение информационных технологий в различных областях человеческой деятельности с каждым годом набирает обороты. Предприятия автоматизируют свое производство, организации преобразовывают документооборот в электронную форму, средства массовой информации публикуют электронные газеты или новостные сайты. Согласно российскому законодательству, при создании государственных информационных ресурсов обязательным требованием является использование классификаторов.
Классификатор - это алгоритм распределения входных данных по заданным классам. В 2019 году классификаторы используются в задачах фильтрации спама, создания рекомендательных систем, анализа тональности текста, улучшения работы поисковой системы, определения диагноза в особых медицинских диагностиках - список областей применения классификаторов обширен.
Сайт Казанского федерального университета содержит медиа-портал. Несмотря на наличие собственной классификации медиа-документов, материалы подгружаются вручную, не используется определенный классификатор - по данной причине текущая деятельность университета не раскрывается в полном объеме.
Цель данной магистерской работы - решить проблему отображения наиболее полной и актуальной информации о Казанском федеральном университете.
Для достижения указанной цели было принято решение создать информационную систему, которая будет собирать медиа-документы об университете и классифицировать их.
Задачи данной работы:
• с применением метапоисковой системы собрать медиа-документы из различных новостных источников и извлечь основную информацию;
• провести обработку полученной информации для улучшения классификации;
• создать классификатор на базе одного из методов текстовой классификации;
• классифицировать медиа-документы с помощью созданного классификатора и отобразить результаты.
Метапоисковая система является распространенным методом информационного поиска, которая опрашивает разные поисковые системы для улучшения полноты и качества поиска, что обуславливает его применение в данной работе.
Для определения оптимального метода текстовой классификации будут созданы несколько классификаторов. В ходе эксперимента каждый классификатор обработает тестовую коллекцию документов с заранее определенными классами. Классификатор с наилучшими результатами теста в дальнейшем будет выбран в качестве основного.
Структура данной работы организована в соответствии с поставленными задачами:
• В главе 2 раскрывается создание метапоисковой системы и ее исследование. Описывается алгоритм работы метапоисковика и ее структура.
• В главе 3 описываются и исследуются методы и этапы обработки текста.
• В главе 4 изучаются различные методы классификации текста, приводятся описания алгоритмов работы классификаторов и проводятся эксперименты по их тестированию.
• В главе 5 проводится классификация медиа-документов, отображаются результаты.
Результаты исследования были представлены на Международной научно-практической конференции «Электронная Казань - 2019» 22 мая 2019 года.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В результате данной работы была создана система классификации медиа-документов, которая позволяет собирать и классифицировать документы, содержащие актуальную информацию о Казанском федеральном университете.
В процессе создания системы были проведены следующие исследования:
• Изучение различных методов и средств сбора информации.
• Анализ методов обработки текстовой информации и средств лингвистического анализа.
• Изучение методов классификации текстовых документов и алгоритмов их работы.
В ходе экспериментов были получены следующие результаты:
• Был создан метапоисковик, который собирает максимально возможное количество уникальных релевантных документов о Казанском федеральном университете.
• Медиа-документы проходят этапы лексического анализа, удаления стоп-слов, стемминга и векторизации c применением метода TF-IDF для достижения наилучшей классификации.
• В ходе обучения классификаторов наилучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов», «Метод дерева решений» и «Перцептрон (нейронная сеть)».
• В ходе классификации тестовой коллекции медиа-документов лучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов» и «Метод k-ближайших соседей».
В дальнейшем планируется улучшение системы классификации медиадокументов путем увеличения и улучшения обучающей коллекции документов, внедрение дополнительных классов, которые будут классифицировать документы по персоналиям, и проведение работ по улучшению классификатора, использующего нейронные сети. В будущем планируется внедрение данной системы в сайт Казанского (Приволжского) федерального университета.



1. ABBYY FlexiCapture. URL: https://www.abbvv.com/ru-ru/flexicapture/ (дата обращения: 28.05.2019)
2. ABBYY Smart Classifier. URL: https: //www. abbvv. com/ru-
ru/smartclassifier/ (дата обращения: 28.05.2019)
3. Aleksander I., Morton H. An Introduction to Neural Computing. — London: Chapman&Hall, 1990.
4. Panchenko A. Technology of the automated thesaurus construction for Information Retrieval //Intelligence Systems and Technologies, Bauman Moscow State Technical University, Moscow. - 2009. - Т. 9. - С. 124-140.
5. Sequental - Keras Documentation. URL: https://keras.io/models/sequential/ (дата обращения: 20.10.2018)
6. Sklearn.pipeline.Pipeline - scikit-learn 0.21.2 documentation. URL: https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html (дата обращения: 11.10.2018)
7. Богославский С. Н. Область применения искусственных нейронных сетей и перспективы их развития //Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. -
2007. - №. 27.
8. Брезицкая В. В., Зеленков П. В., Прохорович Г. А., Перанцева А. В., Храпунова В. В. Классификация информационно-поисковых систем // Решетневские чтения. 2015. Т. 2. №12. С. 22-23
9. Воробжанский Н.Н. Использование метода опорных векторов в классификации изображений // Перспективы науки. 2017. №5 (92). С.11-18
10. Голицына О. Л., Максимов Н. В., Попов И. И. Базы данных //М.: Форум, Сер: Профессиональное образование. - 2006, С. 10.
11. Кафтанников Игорь Леопольдович, Парасич Андрей Викторович Особенности применения деревьев решений в задачах классификации //
Вестник ЮУрГУ. Серия: Компьютерные технологии, управление,
радиоэлектроника. 2015. №3. С.26-32
12. Мониторинг социальных медиа. URL: http://www.rco.ru/7page id=4186 (дата обращения: 28.05.2019)
13. Нгуен Ба Нгок, Тузовский Анатолий Федорович Классификация текстов на основе оценки семантической близости терминов // Известия ТПУ. 2012. №5. URL: https://cyberlemnka.ru/artide/n/klassifikatsiya-tekstov-na- osnove-otsenki-semanticheskoy-blizosti-terminov (дата обращения: 14.02.2019).
14. Программы анализа и лингвистической обработки текстов. URL: https://rvb.ru/soft/catalogue/c01 .html (дата обращения: 28.05.2019)
15. Сервис классификации текстовых документов. URL: https://bayes.pro/ru/products/servis-klassiflkatsii-tekstovykh-dokumentov-119/ (дата обращения: 28.05.2019)
16. Сервисы интеллектуального распознавания, классификации и
извлечения данных DIRECTUM Ario. URL:
https://www.directum.ru/solution/30196902 (дата обращения: 28.05.2019)
17. Стеммер Портера для русского языка, URL: http://snowball.tartarus.org/algorithms/russian/stemmer.html (Дата обращения:
18.03.2019) 5
18. Толмачев Р.В., Воронова Л.И. ТЕМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ СТАТЕЙ НОВОСТНОГО РЕСУРСА МЕТОДАМИ ЛАТЕНТНОСЕМАНТИЧЕСКОГО АНАЛИЗА // Современные наукоемкие технологии. -
2017. - № 3. - С. 55-60.
19. Федотов Д.В. О решении задачи классификации методом опорных векторов // Решетневские чтения. 2013. №17. С.77-79
20. Чуриков Н. С. Классификация новостей сайта правительства Российской Федерации // Молодой ученый. — 2017. — №22. — С. 145-148.
21. Шабанов В. И., Андреев А. М. Метод классификации текстовых документов, основанный на полнотекстовом поиске // Труды первого российского семинара по оценке методов информационного поиска. Под ред. И.С. Некрестьянова - СПб.: НИИ Химии СпбГУ, 2003.
22. Шарапов Р.В., Сидоренко Е.В. Мета-поиск в сети Интернет - взаимодействие с поисковыми системами // Алгоритмы, методы и системы обработки данных. 2002. №7. С.102
23. Шевелев Олег Геннадьевич, Петраков Алексей Владимирович Классификация текстов с помощью деревьев решений и нейронных сетей прямого распространения // Вестник Томского государственного университета. 2006. №290. URL: https://cyberlenmka.ru/artide/n/klassifikatsiya- tekstov-s-pomoschyu-dereviev-resheniy-i-neyronnyh-setey-pryamogo- rasprostraneniya (дата обращения: 27.05.2019).

Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ