ВВЕДЕНИЕ 3
ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ ПОДХОДОВ ПОИСКА ПО МАТЕМАТИЧЕСКИМ ТЕКСТАМ 5
ГЛАВА 2. ТЕОРЕТИЧЕСКИЕ МОДЕЛИ И ПОДХОДЫ ДЛЯ ЗАДАЧИ
МАТЕМАТИЧЕСКОГО ПОИСКА 8
2.1 LaTeXML 8
2.2 Терминологическая разметка математических текстов 10
2.3 Resource Description Framework 14
2.4 Алгоритмы связывания математических выражений 16
2.4.1 Шаг 1. Формирование триплета с отношением rdf:is 16
2.4.2 Шаг 2. Формирование триплета с отношением rdfxontains 18
ГЛАВА 3. РАЗРАБОТКА ПРИЛОЖЕНИЯ-ДЛЯ ПОИСКА
МАТЕМАТИЧЕСКИХ ФОРМУЛ 20
3.1 Архитектура приложения и используемые технологии 20
3.1.1 Структура ASP.NET приложения 20
3.1.2 Библиотека MathJax 21
3.1.3 Библиотека dotNetRDF 22
3.2 Описание объектно-ориентированной модели для математических выражений и их определений 22
3.3 Страница для работы с XML и RDF файлами 24
3.4 Страница просмотра содержимого RDF файла 27
3.5 Страница поиска математических выражений по их текстовому
описанию 28
3.6 Оценка результатов и эксперименты 31
ЗАКЛЮЧЕНИЕ 33
СПИСОК ЛИТЕРАТУРЫ 34
ПРИЛОЖЕНИЯ 37
Приложение 1. Пример XML-файла 37
Приложение 2. Пример RDF-файла 38
Приложение 3. Исходный код приложения
Поиск по математическим документам - актуальная и быстроразвивающаяся область исследований. На сегодняшний день существуют хорошо известные системы, такие как GoogleScholar, MicrosoftAcademicSearch, которые реализуют полнотекстовый поиск по ключевым словам в научных коллекциях и интернет ресурсах. Такие системы очень удобны для конечного пользователя, но в них отсутствует поиск по математическим формулам, при котором конечному пользователю предлагается формулировать запрос на поиск математической формулы в форме ключевых слов. Кроме них существует ряд специализированных систем поиска по математическим формулам, которые предлагают формировать запрос в синтаксисе языка разметки LaTeX (например, SpringerLaTeXSearch, Wikipedia) или MathML, используя графические интерфейсы.
Целью данной работы является разработка приложения для поиска математических формул в текстах научных статей.
Основная задача - разработка алгоритма связывания символьных переменных математических формул с текстовыми описаниями переменных (задача текстового аннотирования переменных математической формулы).
Задача текстового аннотирования переменных математической формулы является весьма трудоемкой и поэтому разработка графического приложения для поиска математических формул несомненно является актуальной задачей для систем обработки математического текста.
Для достижения этой цели требуется выполнить ряд подзадач:
• Изучить предметную область и способы представления математических текстов.
• Разработать алгоритм выделения математических
выражений из LaTeX нотации документов.
• Разработать алгоритм разбора LaTeX представления математических выражений (выделение переменных).
• Разработать алгоритм определения контекста, в котором находится текстовое определение переменной.
• Осуществить морфологическую разметку контекста.
• Разработать алгоритм сопоставления математического выражения и сопоставить с его определением.
• Сохранить полученные результаты в удобном для поиска представлении.
• Разработать приложение для математического поиска.
Разработанные алгоритмы и приложение могут быть применены и использованы в следующих областях:
• Поиск информации.
• Поиск математических формул по текстовым описаниям переменных (ключевым словам).
• Семантическое аннотирование математической статьи.
• Поиск расширенного представления формулы.
• Разметка текста в электронном корпусе языка.
• Извлечение знаний.
• Машинное обучение и др.
Данная работа состоит из трех основных глав, заключения, списка использованной литературы и приложений. В работе описываются алгоритмы поиска и связывания математических формул с их определениями, а также программный инструмент, предоставляющий новые возможности для поиска математических формул в текстах научных статей.
В данной работе подробно описаны используемая технология разработки, хорошо документированы все программные составляющие.
В ходе проделанной работы получены следующие результаты:
• Изучена и проанализирована предметная область и способы представления математических текстов.
• Разработан алгоритм выделения математических выражений их текстов научных статей в LaTeX нотации.
• Осуществлена терминологическая разметка текста.
• Разработан алгоритм сопоставления математического выражения и его текстового описания.
• Результаты работы алгоритма связывания сохранены в формате RDF.
• Разработано программное обеспечение для поиска математических выражений по ключевым словам в текстах научных статей на языке программирования C# с использованием платформы ASP.NET Framework.
• Проведена оценка эффективности алгоритма, предложены способы его улучшения и развития.
Разработанная поисковая система является хорошим прототипом для систем подобного класса и новым программным продуктом, ранее не представленным в литературе.