📄Работа №40848

Тема: СИСТЕМА КЛАССИФИКАЦИИ МЕДИА-ДОКУМЕНТОВ

Характеристики работы

▣

Тип работы Магистерская диссертация

Предмет Информационные системы

📄

Объем: 89 листов

📅

Год: 2019

👁️

5700 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ 4
ГЛАВА 1. ОБЗОР НАУЧНЫХ ПУБЛИКАЦИЙ И РАЗРАБОТОК 7
1.1. Обзор научных публикаций 7
1.2. Обзор существующих разработок 8
1.3. Постановка задачи 12
ГЛАВА 2. СБОР МЕДИА-ДОКУМЕНТОВ 14
2.1. Методы сбора информации 14
2.2. Алгоритм работы метапоисковика 17
2.3. Инструментарий 18
2.4. Эксперименты 18
ГЛАВА 3. ПРЕДОБРАБОТКА ТЕКСТА 21
3.1. Лексический анализ 21
3.2. Удаление стоп-слов 21
3.3. Стемминг 22
3.4. Векторизация 23
ГЛАВА 4. СОЗДАНИЕ КЛАССИФИКАТОРОВ 26
4.1. Наивный байесовский классификатор(ИБС) 26
4.2. Метод опорных векторов 27
4.3. Дерево решений 28
4.4. Метод k-ближайших соседей 28
4.5. Нейронные сети 29
4.6. Программная реализация 33
4.6.1. Инструментарий 33
4.6.2. Классы 34
4.6.3. Функционал и архитектура классификаторов 35
4.7. Эксперимент 39
ГЛАВА 5. КЛАССИФИКАЦИЯ 41
5.1. Оценка классификации 41
5.2. Программная реализация 44
ЗАКЛЮЧЕНИЕ 48
СПИСОК ЛИТЕРАТУРЫ 50
ПРИЛОЖЕНИЯ 53
Приложение 1

📖 Введение

Применение информационных технологий в различных областях человеческой деятельности с каждым годом набирает обороты. Предприятия автоматизируют свое производство, организации преобразовывают документооборот в электронную форму, средства массовой информации публикуют электронные газеты или новостные сайты. Согласно российскому законодательству, при создании государственных информационных ресурсов обязательным требованием является использование классификаторов.
Классификатор - это алгоритм распределения входных данных по заданным классам. В 2019 году классификаторы используются в задачах фильтрации спама, создания рекомендательных систем, анализа тональности текста, улучшения работы поисковой системы, определения диагноза в особых медицинских диагностиках - список областей применения классификаторов обширен.
Сайт Казанского федерального университета содержит медиа-портал. Несмотря на наличие собственной классификации медиа-документов, материалы подгружаются вручную, не используется определенный классификатор - по данной причине текущая деятельность университета не раскрывается в полном объеме.
Цель данной магистерской работы - решить проблему отображения наиболее полной и актуальной информации о Казанском федеральном университете.
Для достижения указанной цели было принято решение создать информационную систему, которая будет собирать медиа-документы об университете и классифицировать их.
Задачи данной работы:
• с применением метапоисковой системы собрать медиа-документы из различных новостных источников и извлечь основную информацию;
• провести обработку полученной информации для улучшения классификации;
• создать классификатор на базе одного из методов текстовой классификации;
• классифицировать медиа-документы с помощью созданного классификатора и отобразить результаты.
Метапоисковая система является распространенным методом информационного поиска, которая опрашивает разные поисковые системы для улучшения полноты и качества поиска, что обуславливает его применение в данной работе.
Для определения оптимального метода текстовой классификации будут созданы несколько классификаторов. В ходе эксперимента каждый классификатор обработает тестовую коллекцию документов с заранее определенными классами. Классификатор с наилучшими результатами теста в дальнейшем будет выбран в качестве основного.
Структура данной работы организована в соответствии с поставленными задачами:
• В главе 2 раскрывается создание метапоисковой системы и ее исследование. Описывается алгоритм работы метапоисковика и ее структура.
• В главе 3 описываются и исследуются методы и этапы обработки текста.
• В главе 4 изучаются различные методы классификации текста, приводятся описания алгоритмов работы классификаторов и проводятся эксперименты по их тестированию.
• В главе 5 проводится классификация медиа-документов, отображаются результаты.
Результаты исследования были представлены на Международной научно-практической конференции «Электронная Казань - 2019» 22 мая 2019 года.

✅ Заключение

В результате данной работы была создана система классификации медиа-документов, которая позволяет собирать и классифицировать документы, содержащие актуальную информацию о Казанском федеральном университете.
В процессе создания системы были проведены следующие исследования:
• Изучение различных методов и средств сбора информации.
• Анализ методов обработки текстовой информации и средств лингвистического анализа.
• Изучение методов классификации текстовых документов и алгоритмов их работы.
В ходе экспериментов были получены следующие результаты:
• Был создан метапоисковик, который собирает максимально возможное количество уникальных релевантных документов о Казанском федеральном университете.
• Медиа-документы проходят этапы лексического анализа, удаления стоп-слов, стемминга и векторизации c применением метода TF-IDF для достижения наилучшей классификации.
• В ходе обучения классификаторов наилучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов», «Метод дерева решений» и «Перцептрон (нейронная сеть)».
• В ходе классификации тестовой коллекции медиа-документов лучшие результаты продемонстрировали классификаторы, использующие «Метод опорных векторов» и «Метод k-ближайших соседей».
В дальнейшем планируется улучшение системы классификации медиадокументов путем увеличения и улучшения обучающей коллекции документов, внедрение дополнительных классов, которые будут классифицировать документы по персоналиям, и проведение работ по улучшению классификатора, использующего нейронные сети. В будущем планируется внедрение данной системы в сайт Казанского (Приволжского) федерального университета.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. ABBYY FlexiCapture. URL: https://www.abbvv.com/ru-ru/flexicapture/ (дата обращения: 28.05.2019)
2. ABBYY Smart Classifier. URL: https: //www. abbvv. com/ru-
ru/smartclassifier/ (дата обращения: 28.05.2019)
3. Aleksander I., Morton H. An Introduction to Neural Computing. — London: Chapman&Hall, 1990.
4. Panchenko A. Technology of the automated thesaurus construction for Information Retrieval //Intelligence Systems and Technologies, Bauman Moscow State Technical University, Moscow. - 2009. - Т. 9. - С. 124-140.
5. Sequental - Keras Documentation. URL: https://keras.io/models/sequential/ (дата обращения: 20.10.2018)
6. Sklearn.pipeline.Pipeline - scikit-learn 0.21.2 documentation. URL: https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html (дата обращения: 11.10.2018)
7. Богославский С. Н. Область применения искусственных нейронных сетей и перспективы их развития //Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. -
2007. - №. 27.
8. Брезицкая В. В., Зеленков П. В., Прохорович Г. А., Перанцева А. В., Храпунова В. В. Классификация информационно-поисковых систем // Решетневские чтения. 2015. Т. 2. №12. С. 22-23
9. Воробжанский Н.Н. Использование метода опорных векторов в классификации изображений // Перспективы науки. 2017. №5 (92). С.11-18
10. Голицына О. Л., Максимов Н. В., Попов И. И. Базы данных //М.: Форум, Сер: Профессиональное образование. - 2006, С. 10.
11. Кафтанников Игорь Леопольдович, Парасич Андрей Викторович Особенности применения деревьев решений в задачах классификации //
Вестник ЮУрГУ. Серия: Компьютерные технологии, управление,
радиоэлектроника. 2015. №3. С.26-32
12. Мониторинг социальных медиа. URL: http://www.rco.ru/7page id=4186 (дата обращения: 28.05.2019)
13. Нгуен Ба Нгок, Тузовский Анатолий Федорович Классификация текстов на основе оценки семантической близости терминов // Известия ТПУ. 2012. №5. URL: https://cyberlemnka.ru/artide/n/klassifikatsiya-tekstov-na- osnove-otsenki-semanticheskoy-blizosti-terminov (дата обращения: 14.02.2019).
14. Программы анализа и лингвистической обработки текстов. URL: https://rvb.ru/soft/catalogue/c01 .html (дата обращения: 28.05.2019)
15. Сервис классификации текстовых документов. URL: https://bayes.pro/ru/products/servis-klassiflkatsii-tekstovykh-dokumentov-119/ (дата обращения: 28.05.2019)
16. Сервисы интеллектуального распознавания, классификации и
извлечения данных DIRECTUM Ario. URL:
https://www.directum.ru/solution/30196902 (дата обращения: 28.05.2019)
17. Стеммер Портера для русского языка, URL: http://snowball.tartarus.org/algorithms/russian/stemmer.html (Дата обращения:
18.03.2019) 5
18. Толмачев Р.В., Воронова Л.И. ТЕМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ СТАТЕЙ НОВОСТНОГО РЕСУРСА МЕТОДАМИ ЛАТЕНТНОСЕМАНТИЧЕСКОГО АНАЛИЗА // Современные наукоемкие технологии. -
2017. - № 3. - С. 55-60.
19. Федотов Д.В. О решении задачи классификации методом опорных векторов // Решетневские чтения. 2013. №17. С.77-79
20. Чуриков Н. С. Классификация новостей сайта правительства Российской Федерации // Молодой ученый. — 2017. — №22. — С. 145-148.
21. Шабанов В. И., Андреев А. М. Метод классификации текстовых документов, основанный на полнотекстовом поиске // Труды первого российского семинара по оценке методов информационного поиска. Под ред. И.С. Некрестьянова - СПб.: НИИ Химии СпбГУ, 2003.
22. Шарапов Р.В., Сидоренко Е.В. Мета-поиск в сети Интернет - взаимодействие с поисковыми системами // Алгоритмы, методы и системы обработки данных. 2002. №7. С.102
23. Шевелев Олег Геннадьевич, Петраков Алексей Владимирович Классификация текстов с помощью деревьев решений и нейронных сетей прямого распространения // Вестник Томского государственного университета. 2006. №290. URL: https://cyberlenmka.ru/artide/n/klassifikatsiya- tekstov-s-pomoschyu-dereviev-resheniy-i-neyronnyh-setey-pryamogo- rasprostraneniya (дата обращения: 27.05.2019).

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210969)

Статьи

»» Все статьи

Вход в личный кабинет