Введение 4
1 Подходы к классификации текстов 6
2 Классификация текстовых документов (дискретная модель) 8
2.1 Постановка задачи 8
2.2 Представление документа 8
2.3 Общий подход к классификации текстов в дискретной модели 10
2.4 Отбор признаков 10
2.5 Взвешивание слов 12
2.6 Основные индексы и метрики при оценке расстояния 13
2.7 Методы классификации 13
2.7.1 Наивный байесовский алгоритм 14
2.7.2 Алгоритм ^-ближайших соседей 14
2.7.3 Классификатор Роше 14
2.7.4 Метод опорных векторов SV 15
2.7.5 Классификаторы на основе решающих правил 15
2.7.6 Вероятностные классификаторы 15
2.7.7 Линейные классификаторы 16
2.7.8 Нейронные сети 16
2.8 Проблемы классификации 16
3 Математические формулы в текстовых документах 18
3.1 Классификация документа с математическими формулам 18
3.2 Подходы к классификации текстов, содержащих формулы 21
3.3 Преобразование математических формул в текст с помощью Speech-to¬T ext инструментов 21
3.3.1 Google Speech API 22
3.3.2 Yandex SpeechKit 23
3.4 Перевод формул в систему верстки ТеХ 27
4 Программная реализация для классификации документов, содержащих
формулы 30
5 Результаты классификации для методов преобразования математических
формул 33
Заключение 37
Список использованных источников 38
Приложение А (обязательное) Тестовый текстовый документ до
преобразования в набор слов 40
Приложение Б (обязательное Тестовый текстовый документ после преобразования в набор слов с применением фильтрации (без обработки
формул) 43
Приложение В (обязательное) Код структур классов 44
Приложение Г (обязательное) Скриншоты интерфейса прикладного ПО... 46
Приложение Д (обязательное) Код прикладного ПО для классификации
текстов с формулами 49
В настоящее время в связи со взрывным характером порождения цифровых текстовых документов (интернет, автоматизированный документооборот, цифровые библиотеки, образовательные сайты и порталы и т.п.) все более насущной является проблема их поиска. Основополагающую роль при построении тематического полнотекстового поиска документов играет классификация.
Классификация документов - одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа и может применяться в решении многих практических задач, таких как:
- фильтрация документов;
- распознавание спама;
- автоматическое аннотирование;
- поиск текстовых документов;
- навигация по большим информационным ресурсам;
- подбор рекламы;
- составление интернет-каталогов;
- классификация новостей;
- библиотечный УДК и ББК;
- индексация данных в поисковых запросах и т.д.
Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения.
Способы и методы классификации включаются в направление, называемое TextMining.
Сейчас TextMining активно развивается: ведутся исследования,запускаются проекты и конкурсы на выявление лучших по точности алгоритмов.
На сегодняшний день готовых методов для классификации документов с особыми объектами, такими как математические формулы, нет.
Предложенные способы стоит рассматривать как предобработку перед самой классификацией, поскольку в процессе преобразования формул в обоих методах необходимо человеческое вмешательство. В конечном итоге они сводят документы к дискретной модели, поэтому для данных подходов можно использовать известные методы классификации.
В ходе проверки двух методов было установлено, что способ преобразования голоса в текст, при объеме формул в тексте от 80 до 100 процентов, дает более точные результаты, в отличии от метода перевода текстового документа в ТеХ формат. Поэтому можно утверждать, что метод приведения непрерывного сигнала к дискретной модели более универсален и эффективен. Но нужно заметить, что его эффективность сильно зависит от того, насколько четко оператор будет проговаривать формулы, а также насколько движок может понимать предлагаемый звуковой сигнал для перевода в текст.
На сегодняшний день все инструменты Speech-To-Text предъявляют достаточно жёсткие требования к произношению текста.
При достаточно хорошей реализации и оптимизации предложенных методов, число текстовых документов, содержащих формулы, может быть значительно увеличено, что существенно повысит качество классификации. Учитывая полученные результаты, данная работа может дополнить арсенал методов, используемых для классификации текстовых документов.
1. Вапник, В. Н. Теория распознавания образов : учебное пособие / В. Н. Вапник, А. Я. Червоненкис. - Москва : Наука, 1974. - 416 с.
2. Голосовой блокнот SpeechPad [Электронный ресурс] : движок для преобразования голоса в текстовую информацию - Режим доступа: https://www.speechpad.ru.
3. Лавренов, А. О. Классификация текстов, содержащих формулы / А. О. Лавренов, Б. В. Олейников. - Москва : Изд. Московский университет им. С.Ю. Витте, 2014. - 120 с. - ISSN 2312-5500.
4. Олейников, Б. В. Обобщенный коэффициент подобия для биоценотических исследований / Б. В. Олейников ; КрГУ. - Красноярск, 1984. - 23 с. - Деп. в ВИНИТИ 13.12.84, № 7978-84.
5. Харин, Н. П. Метод ранжирования выдачи, учитывающий автоматически построенные ассоциативные отношения между терминами : учебное пособие / Н. П. Харин. - Москва : НТИ, 1990. - 50 с.
6. Шабанов, В. И. Алгоритм формирования ассоциативных связей и его применение в поисковых системах : учебное пособие / В. И. Шабанов, А. Е. Власова. - Москва : Диалог-2003, 2003. - 700 с.
7. Joachims, T. Making large-scale SVM learning practical : учебное пособие / T. Joachims. - Cambridge : MIT Press, 1999. - 100 с.
8. Manning, C. Introduction to information Retrieval [Электронный ресурс] : онлайн издание / C. Manning, P. Raghavan, H. Schutze. - Режим доступа: https: //nlp. stanford.edu/IR-book.
9. Oleynikov, B. V. Text classification based on their audio converting : учебное пособие / B. V. Oleynikov, A. O. Lavrenov. - Moscow : SIIT&T Informika, 2013. - 56 с.
10. Google Speech API [Электронный ресурс] : перевод звука в текст - Режим доступа: https://cloud.google.com/speech/.
11. Sebastiani, F. Machine Learning in Automated Text Categorization : учебное пособие / F. Sebastiani. - Cambridge : ACM Computing Surveys, 2002. - 47 с.
12. Yandex SpeechKit [Электронный ресурс] : преобразование речи в текст - Режим доступа: https://tech.yandex.ru/speechkit/.