Тема: ДИСКРЕТНЫЙ ПОДХОД ПРИ КЛАССИФИКАЦИИ ТЕКСТОВ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Подходы к классификации текстов 6
2 Классификация текстовых документов (дискретная модель) 8
2.1 Постановка задачи 8
2.2 Представление документа 8
2.3 Общий подход к классификации текстов в дискретной модели 10
2.4 Отбор признаков 10
2.5 Взвешивание слов 12
2.6 Основные индексы и метрики при оценке расстояния 13
2.7 Методы классификации 13
2.7.1 Наивный байесовский алгоритм 14
2.7.2 Алгоритм ^-ближайших соседей 14
2.7.3 Классификатор Роше 14
2.7.4 Метод опорных векторов SV 15
2.7.5 Классификаторы на основе решающих правил 15
2.7.6 Вероятностные классификаторы 15
2.7.7 Линейные классификаторы 16
2.7.8 Нейронные сети 16
2.8 Проблемы классификации 16
3 Математические формулы в текстовых документах 18
3.1 Классификация документа с математическими формулам 18
3.2 Подходы к классификации текстов, содержащих формулы 21
3.3 Преобразование математических формул в текст с помощью Speech-to¬T ext инструментов 21
3.3.1 Google Speech API 22
3.3.2 Yandex SpeechKit 23
3.4 Перевод формул в систему верстки ТеХ 27
4 Программная реализация для классификации документов, содержащих
формулы 30
5 Результаты классификации для методов преобразования математических
формул 33
Заключение 37
Список использованных источников 38
Приложение А (обязательное) Тестовый текстовый документ до
преобразования в набор слов 40
Приложение Б (обязательное Тестовый текстовый документ после преобразования в набор слов с применением фильтрации (без обработки
формул) 43
Приложение В (обязательное) Код структур классов 44
Приложение Г (обязательное) Скриншоты интерфейса прикладного ПО... 46
Приложение Д (обязательное) Код прикладного ПО для классификации
текстов с формулами 49
📖 Введение
Классификация документов - одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа и может применяться в решении многих практических задач, таких как:
- фильтрация документов;
- распознавание спама;
- автоматическое аннотирование;
- поиск текстовых документов;
- навигация по большим информационным ресурсам;
- подбор рекламы;
- составление интернет-каталогов;
- классификация новостей;
- библиотечный УДК и ББК;
- индексация данных в поисковых запросах и т.д.
Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения.
Способы и методы классификации включаются в направление, называемое TextMining.
Сейчас TextMining активно развивается: ведутся исследования,запускаются проекты и конкурсы на выявление лучших по точности алгоритмов.
✅ Заключение
Предложенные способы стоит рассматривать как предобработку перед самой классификацией, поскольку в процессе преобразования формул в обоих методах необходимо человеческое вмешательство. В конечном итоге они сводят документы к дискретной модели, поэтому для данных подходов можно использовать известные методы классификации.
В ходе проверки двух методов было установлено, что способ преобразования голоса в текст, при объеме формул в тексте от 80 до 100 процентов, дает более точные результаты, в отличии от метода перевода текстового документа в ТеХ формат. Поэтому можно утверждать, что метод приведения непрерывного сигнала к дискретной модели более универсален и эффективен. Но нужно заметить, что его эффективность сильно зависит от того, насколько четко оператор будет проговаривать формулы, а также насколько движок может понимать предлагаемый звуковой сигнал для перевода в текст.
На сегодняшний день все инструменты Speech-To-Text предъявляют достаточно жёсткие требования к произношению текста.
При достаточно хорошей реализации и оптимизации предложенных методов, число текстовых документов, содержащих формулы, может быть значительно увеличено, что существенно повысит качество классификации. Учитывая полученные результаты, данная работа может дополнить арсенал методов, используемых для классификации текстовых документов.



