ДИСКРЕТНЫЙ ПОДХОД ПРИ КЛАССИФИКАЦИИ ТЕКСТОВ
|
Введение 4
1 Подходы к классификации текстов 6
2 Классификация текстовых документов (дискретная модель) 8
2.1 Постановка задачи 8
2.2 Представление документа 8
2.3 Общий подход к классификации текстов в дискретной модели 10
2.4 Отбор признаков 10
2.5 Взвешивание слов 12
2.6 Основные индексы и метрики при оценке расстояния 13
2.7 Методы классификации 13
2.7.1 Наивный байесовский алгоритм 14
2.7.2 Алгоритм ^-ближайших соседей 14
2.7.3 Классификатор Роше 14
2.7.4 Метод опорных векторов SV 15
2.7.5 Классификаторы на основе решающих правил 15
2.7.6 Вероятностные классификаторы 15
2.7.7 Линейные классификаторы 16
2.7.8 Нейронные сети 16
2.8 Проблемы классификации 16
3 Математические формулы в текстовых документах 18
3.1 Классификация документа с математическими формулам 18
3.2 Подходы к классификации текстов, содержащих формулы 21
3.3 Преобразование математических формул в текст с помощью Speech-to¬T ext инструментов 21
3.3.1 Google Speech API 22
3.3.2 Yandex SpeechKit 23
3.4 Перевод формул в систему верстки ТеХ 27
4 Программная реализация для классификации документов, содержащих
формулы 30
5 Результаты классификации для методов преобразования математических
формул 33
Заключение 37
Список использованных источников 38
Приложение А (обязательное) Тестовый текстовый документ до
преобразования в набор слов 40
Приложение Б (обязательное Тестовый текстовый документ после преобразования в набор слов с применением фильтрации (без обработки
формул) 43
Приложение В (обязательное) Код структур классов 44
Приложение Г (обязательное) Скриншоты интерфейса прикладного ПО... 46
Приложение Д (обязательное) Код прикладного ПО для классификации
текстов с формулами 49
1 Подходы к классификации текстов 6
2 Классификация текстовых документов (дискретная модель) 8
2.1 Постановка задачи 8
2.2 Представление документа 8
2.3 Общий подход к классификации текстов в дискретной модели 10
2.4 Отбор признаков 10
2.5 Взвешивание слов 12
2.6 Основные индексы и метрики при оценке расстояния 13
2.7 Методы классификации 13
2.7.1 Наивный байесовский алгоритм 14
2.7.2 Алгоритм ^-ближайших соседей 14
2.7.3 Классификатор Роше 14
2.7.4 Метод опорных векторов SV 15
2.7.5 Классификаторы на основе решающих правил 15
2.7.6 Вероятностные классификаторы 15
2.7.7 Линейные классификаторы 16
2.7.8 Нейронные сети 16
2.8 Проблемы классификации 16
3 Математические формулы в текстовых документах 18
3.1 Классификация документа с математическими формулам 18
3.2 Подходы к классификации текстов, содержащих формулы 21
3.3 Преобразование математических формул в текст с помощью Speech-to¬T ext инструментов 21
3.3.1 Google Speech API 22
3.3.2 Yandex SpeechKit 23
3.4 Перевод формул в систему верстки ТеХ 27
4 Программная реализация для классификации документов, содержащих
формулы 30
5 Результаты классификации для методов преобразования математических
формул 33
Заключение 37
Список использованных источников 38
Приложение А (обязательное) Тестовый текстовый документ до
преобразования в набор слов 40
Приложение Б (обязательное Тестовый текстовый документ после преобразования в набор слов с применением фильтрации (без обработки
формул) 43
Приложение В (обязательное) Код структур классов 44
Приложение Г (обязательное) Скриншоты интерфейса прикладного ПО... 46
Приложение Д (обязательное) Код прикладного ПО для классификации
текстов с формулами 49
В настоящее время в связи со взрывным характером порождения цифровых текстовых документов (интернет, автоматизированный документооборот, цифровые библиотеки, образовательные сайты и порталы и т.п.) все более насущной является проблема их поиска. Основополагающую роль при построении тематического полнотекстового поиска документов играет классификация.
Классификация документов - одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа и может применяться в решении многих практических задач, таких как:
- фильтрация документов;
- распознавание спама;
- автоматическое аннотирование;
- поиск текстовых документов;
- навигация по большим информационным ресурсам;
- подбор рекламы;
- составление интернет-каталогов;
- классификация новостей;
- библиотечный УДК и ББК;
- индексация данных в поисковых запросах и т.д.
Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения.
Способы и методы классификации включаются в направление, называемое TextMining.
Сейчас TextMining активно развивается: ведутся исследования,запускаются проекты и конкурсы на выявление лучших по точности алгоритмов.
Классификация документов - одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа и может применяться в решении многих практических задач, таких как:
- фильтрация документов;
- распознавание спама;
- автоматическое аннотирование;
- поиск текстовых документов;
- навигация по большим информационным ресурсам;
- подбор рекламы;
- составление интернет-каталогов;
- классификация новостей;
- библиотечный УДК и ББК;
- индексация данных в поисковых запросах и т.д.
Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения.
Способы и методы классификации включаются в направление, называемое TextMining.
Сейчас TextMining активно развивается: ведутся исследования,запускаются проекты и конкурсы на выявление лучших по точности алгоритмов.
На сегодняшний день готовых методов для классификации документов с особыми объектами, такими как математические формулы, нет.
Предложенные способы стоит рассматривать как предобработку перед самой классификацией, поскольку в процессе преобразования формул в обоих методах необходимо человеческое вмешательство. В конечном итоге они сводят документы к дискретной модели, поэтому для данных подходов можно использовать известные методы классификации.
В ходе проверки двух методов было установлено, что способ преобразования голоса в текст, при объеме формул в тексте от 80 до 100 процентов, дает более точные результаты, в отличии от метода перевода текстового документа в ТеХ формат. Поэтому можно утверждать, что метод приведения непрерывного сигнала к дискретной модели более универсален и эффективен. Но нужно заметить, что его эффективность сильно зависит от того, насколько четко оператор будет проговаривать формулы, а также насколько движок может понимать предлагаемый звуковой сигнал для перевода в текст.
На сегодняшний день все инструменты Speech-To-Text предъявляют достаточно жёсткие требования к произношению текста.
При достаточно хорошей реализации и оптимизации предложенных методов, число текстовых документов, содержащих формулы, может быть значительно увеличено, что существенно повысит качество классификации. Учитывая полученные результаты, данная работа может дополнить арсенал методов, используемых для классификации текстовых документов.
Предложенные способы стоит рассматривать как предобработку перед самой классификацией, поскольку в процессе преобразования формул в обоих методах необходимо человеческое вмешательство. В конечном итоге они сводят документы к дискретной модели, поэтому для данных подходов можно использовать известные методы классификации.
В ходе проверки двух методов было установлено, что способ преобразования голоса в текст, при объеме формул в тексте от 80 до 100 процентов, дает более точные результаты, в отличии от метода перевода текстового документа в ТеХ формат. Поэтому можно утверждать, что метод приведения непрерывного сигнала к дискретной модели более универсален и эффективен. Но нужно заметить, что его эффективность сильно зависит от того, насколько четко оператор будет проговаривать формулы, а также насколько движок может понимать предлагаемый звуковой сигнал для перевода в текст.
На сегодняшний день все инструменты Speech-To-Text предъявляют достаточно жёсткие требования к произношению текста.
При достаточно хорошей реализации и оптимизации предложенных методов, число текстовых документов, содержащих формулы, может быть значительно увеличено, что существенно повысит качество классификации. Учитывая полученные результаты, данная работа может дополнить арсенал методов, используемых для классификации текстовых документов.
Подобные работы
- СПЕЦИФИКА ТЕКСТА НОВЫХ МЕДИА, ИСПОЛЬЗУЕМОГО ДЛЯ
ИНФОРМАЦИОННОГО СОПРОВОЖДЕНИЯ СПЕЦИАЛЬНЫХ МЕРОПРИЯТИЙ
(НА ПРИМЕРЕ ТЕКСТОВ ДЛЯ СПЕЦИАЛЬНЫХ МЕРОПРИЯТИЙ
ОБРАЗОВАТЕЛЬНЫХ ОРГАНИЗАЦИЙ)
Магистерская диссертация, реклама & PR. Язык работы: Русский. Цена: 5900 р. Год сдачи: 2020 - ТЕКСТОЦЕНТРИЧЕСКИЙ ПОДХОД В ОБРАЗОВАТЕЛЬНОМ ПРОСТРАНСТВЕ ВЫСШЕЙ ВОЕННОЙ ШКОЛЫ (на материале иноязычного образования)
Диссертация , педагогика. Язык работы: Русский. Цена: 500 р. Год сдачи: 2003 - Исследование морфологии спектральных портретов литературных фрагментов как инструмент развития познавательных интересов учащихся старших классов
Дипломные работы, ВКР, педагогика. Язык работы: Русский. Цена: 4280 р. Год сдачи: 2020 - Философская сущность информационного подхода (09.00.08)
Диссертации (РГБ), философия. Язык работы: Русский. Цена: 700 р. Год сдачи: 2001 - Разработка методических материалов по использованию элементов историзма при изучении темы «Физика атомного ядра»
в курсе физики 11-х классов
Дипломные работы, ВКР, физика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2018 - Философская сущность информационного подхода
Диссертация , философия. Язык работы: Русский. Цена: 500 р. Год сдачи: 2001 - ПРОИЗВОДСТВО И ВОСПРОИЗВОДСТВО ЗНАНИЯ: КОГНИТИВНО-АНТРОПОЛОГИЧЕСКИЙ АСПЕКТ
Диссертации (РГБ), философия. Язык работы: Русский. Цена: 500 р. Год сдачи: 2004 - ПРИЧИНЕНИЕ ВРЕДА ПРИ ЗАДЕРЖАНИИ ЛИЦА, СОВЕРШИВШЕГО ПРЕСТУПЛЕНИЕ, КАК ОБСТОЯТЕЛЬСТВО, ИСКЛЮЧАЮЩЕЕ ПРЕСТУПНОСТЬ ДЕЯНИЯ
Диссертации (РГБ), . Язык работы: Русский. Цена: 500 р. Год сдачи: 2002 - ФУНКЦИОНАЛЬНЫЙ АСПЕКТ ПАУЗ В СПОНТАННОМ ДИСКУРСЕ (НА МАТЕРИАЛЕ БРИТАНСКОГО И АМЕРИКАНСКОГО ВАРИАНТОВ АНГЛИЙСКОГО ЯЗЫКА)
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4355 р. Год сдачи: 2017



