📄Работа №18983

Тема: ДИСКРЕТНЫЙ ПОДХОД ПРИ КЛАССИФИКАЦИИ ТЕКСТОВ

📝

Тип работы Бакалаврская работа

📚

Предмет Математика

📄

Объем: 65 листов

📅

Год: 2017

👁️

5750 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 4
1 Подходы к классификации текстов 6
2 Классификация текстовых документов (дискретная модель) 8
2.1 Постановка задачи 8
2.2 Представление документа 8
2.3 Общий подход к классификации текстов в дискретной модели 10
2.4 Отбор признаков 10
2.5 Взвешивание слов 12
2.6 Основные индексы и метрики при оценке расстояния 13
2.7 Методы классификации 13
2.7.1 Наивный байесовский алгоритм 14
2.7.2 Алгоритм ^-ближайших соседей 14
2.7.3 Классификатор Роше 14
2.7.4 Метод опорных векторов SV 15
2.7.5 Классификаторы на основе решающих правил 15
2.7.6 Вероятностные классификаторы 15
2.7.7 Линейные классификаторы 16
2.7.8 Нейронные сети 16
2.8 Проблемы классификации 16
3 Математические формулы в текстовых документах 18
3.1 Классификация документа с математическими формулам 18
3.2 Подходы к классификации текстов, содержащих формулы 21
3.3 Преобразование математических формул в текст с помощью Speech-to¬T ext инструментов 21
3.3.1 Google Speech API 22
3.3.2 Yandex SpeechKit 23
3.4 Перевод формул в систему верстки ТеХ 27
4 Программная реализация для классификации документов, содержащих
формулы 30
5 Результаты классификации для методов преобразования математических
формул 33
Заключение 37
Список использованных источников 38
Приложение А (обязательное) Тестовый текстовый документ до
преобразования в набор слов 40
Приложение Б (обязательное Тестовый текстовый документ после преобразования в набор слов с применением фильтрации (без обработки
формул) 43
Приложение В (обязательное) Код структур классов 44
Приложение Г (обязательное) Скриншоты интерфейса прикладного ПО... 46
Приложение Д (обязательное) Код прикладного ПО для классификации
текстов с формулами 49

📖 Введение

В настоящее время в связи со взрывным характером порождения цифровых текстовых документов (интернет, автоматизированный документооборот, цифровые библиотеки, образовательные сайты и порталы и т.п.) все более насущной является проблема их поиска. Основополагающую роль при построении тематического полнотекстового поиска документов играет классификация.
Классификация документов - одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа и может применяться в решении многих практических задач, таких как:
- фильтрация документов;
- распознавание спама;
- автоматическое аннотирование;
- поиск текстовых документов;
- навигация по большим информационным ресурсам;
- подбор рекламы;
- составление интернет-каталогов;
- классификация новостей;
- библиотечный УДК и ББК;
- индексация данных в поисковых запросах и т.д.
Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения.
Способы и методы классификации включаются в направление, называемое TextMining.
Сейчас TextMining активно развивается: ведутся исследования,запускаются проекты и конкурсы на выявление лучших по точности алгоритмов.

✅ Заключение

На сегодняшний день готовых методов для классификации документов с особыми объектами, такими как математические формулы, нет.
Предложенные способы стоит рассматривать как предобработку перед самой классификацией, поскольку в процессе преобразования формул в обоих методах необходимо человеческое вмешательство. В конечном итоге они сводят документы к дискретной модели, поэтому для данных подходов можно использовать известные методы классификации.
В ходе проверки двух методов было установлено, что способ преобразования голоса в текст, при объеме формул в тексте от 80 до 100 процентов, дает более точные результаты, в отличии от метода перевода текстового документа в ТеХ формат. Поэтому можно утверждать, что метод приведения непрерывного сигнала к дискретной модели более универсален и эффективен. Но нужно заметить, что его эффективность сильно зависит от того, насколько четко оператор будет проговаривать формулы, а также насколько движок может понимать предлагаемый звуковой сигнал для перевода в текст.
На сегодняшний день все инструменты Speech-To-Text предъявляют достаточно жёсткие требования к произношению текста.
При достаточно хорошей реализации и оптимизации предложенных методов, число текстовых документов, содержащих формулы, может быть значительно увеличено, что существенно повысит качество классификации. Учитывая полученные результаты, данная работа может дополнить арсенал методов, используемых для классификации текстовых документов.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Вапник, В. Н. Теория распознавания образов : учебное пособие / В. Н. Вапник, А. Я. Червоненкис. - Москва : Наука, 1974. - 416 с.
2. Голосовой блокнот SpeechPad [Электронный ресурс] : движок для преобразования голоса в текстовую информацию - Режим доступа: https://www.speechpad.ru.
3. Лавренов, А. О. Классификация текстов, содержащих формулы / А. О. Лавренов, Б. В. Олейников. - Москва : Изд. Московский университет им. С.Ю. Витте, 2014. - 120 с. - ISSN 2312-5500.
4. Олейников, Б. В. Обобщенный коэффициент подобия для биоценотических исследований / Б. В. Олейников ; КрГУ. - Красноярск, 1984. - 23 с. - Деп. в ВИНИТИ 13.12.84, № 7978-84.
5. Харин, Н. П. Метод ранжирования выдачи, учитывающий автоматически построенные ассоциативные отношения между терминами : учебное пособие / Н. П. Харин. - Москва : НТИ, 1990. - 50 с.
6. Шабанов, В. И. Алгоритм формирования ассоциативных связей и его применение в поисковых системах : учебное пособие / В. И. Шабанов, А. Е. Власова. - Москва : Диалог-2003, 2003. - 700 с.
7. Joachims, T. Making large-scale SVM learning practical : учебное пособие / T. Joachims. - Cambridge : MIT Press, 1999. - 100 с.
8. Manning, C. Introduction to information Retrieval [Электронный ресурс] : онлайн издание / C. Manning, P. Raghavan, H. Schutze. - Режим доступа: https: //nlp. stanford.edu/IR-book.
9. Oleynikov, B. V. Text classification based on their audio converting : учебное пособие / B. V. Oleynikov, A. O. Lavrenov. - Moscow : SIIT&T Informika, 2013. - 56 с.
10. Google Speech API [Электронный ресурс] : перевод звука в текст - Режим доступа: https://cloud.google.com/speech/.
11. Sebastiani, F. Machine Learning in Automated Text Categorization : учебное пособие / F. Sebastiani. - Cambridge : ACM Computing Surveys, 2002. - 47 с.
12. Yandex SpeechKit [Электронный ресурс] : преобразование речи в текст - Режим доступа: https://tech.yandex.ru/speechkit/.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210475)

Статьи

»» Все статьи

Вход в личный кабинет