1 Введение 7
2 Предварительные сведения 9
2.1 Семантика 9
2.2 WorldWideWeb 9
2.3 XML 10
2.4 Метаданные 10
2.5 MathML 11
2.6 Документы формата OMDoc 12
2.7 RDF 12
2.8 ТЕХи LTEX 12
2.9 STEX 13
2.10 PHP 13
2.11 Python 14
3 Математика и машинная обработка 15
3.1 Представление математических символов 15
3.1.1 Среды, ориентированные на типографию 15
3.1.2 Web-ориентированные среды 15
3.2 Преимущества и недостатки MathML представления 17
4 Подходы к данной проблеме 18
4.1 OpenMath 18
4.2 Система KWARC 18
4.2.1 Подпроекты проекта KWARK 20
4.2.2 OMDoc - язык представления математических доку¬
ментов 21
4.2.3 STEX 22
4.3 MathLang 24
5 Инструменты для работы с OMDoc 25
5.1 Алгоритм приложения 25
5.1.1 Работа с форматом OMDoc и создание XML библиотеки 26
5.1.2 Обработка математических конструкций в данной библиотеке 27
5.1.3 Создание сервиса работающего с данной библиотекой 28
5.2 Результат 29
6 Заключение 31
Список литературы 32
Приложение
Развитие интернета в настоящее время связно с семантической обработкой информации[6]. Семантическая обработка текстовых файлов затруднена тем, что документы не имеют аналогов характерных для математических документов структурных единиц, можно отметить и разницу в
строениях различных естественных языков. Самой популярной в математическом сообществе языком для набора математических документов является язык разметки TEX/LATEX. TEX/LATEXдокумент, в свою очередь, хоть и
имеет элементы семантики, но их использование ограниченно, что не дает полноценной возможности его семантической обработки. Чтобы реализовать семантику математических документов есть несколько вариантов —
вводить новый хорошо поддающийся компьютерной обработке документ,
а затем переводить все старые документы к новому формату, включать в
данный документ надстройки, реализующие семантику документа, создавать программы способные включать семантику в уже готовый документ.
В результате такого подхода существует возможность не только удобно машинно обрабатывать документы, но и находить связи между документами
на разных языках. Это позволит на основе основных математических документов собирать новые документы, электронные учебные пособия, а также
электронные системы обучения, облегчит поиск информации.
Введение семантики в документы, а также в Web является отправной точкой к созданию Web 3.0. Если введение семантики в обычные документы
можно ограничить семантикой по ключевым словам, то в математике существую определенные смысловые конструкции такие как определения аксиомы, доказательства, наличие таких конструкций как формулы, а также
строгость выражений в математике сочетающаяся гибкостью человеческого
языка усложняет ввод в подобные документы семантики.
В представленной работе представлен обзор методов введения семантики
в математический документ, предложенных различными группами ученых
по всему миру. Пока не существует идеального способа вводить семантику,
поэтому каждый из предложенных подходов имеет свои недостатки, обу-
7словленные строением подхода.
Для развития семантических технологий желательно увеличить количество
подходов к проблеме чтобы выбрать самый оптимальный для каждого из
случаев. Наиболее рациональным является использование такого языка как
XML, таким образом возникает необходимость создание приложения осуществляющего визуальное представление документа.
[10] Введение семантики в документы, особенно в математические, заключает в себе некоторые проблемы. Например проблема неудобства восприятия человеком исходного кода документа. В исходном коде семантического документа существуют конструкции отвечающие именно за семантику, к
примеру автор документа, а также конструкции которые не существуют или
существуют в неполном виде такие как связи между элементами, а также
ссылки и другие характерные особенности семантических документов.
Как цель работы предложен алгоритм преобразования документа в который
ведена семантика к читаемому виду.
На основе этого алгоритма предложен Web-сервис работающий с коллекцией документов имеющих семантическое представление, и составляет словарь терминов, обеспечивает поиск среди них и выводит список документов, в которых встречается это определение
В настоящей работе были рассмотрены вопросы, связанные с проблемами интеллектуальной обработки математических текстов, исследованы
различные форматы представления математических документов. Дан обзор
различных подходов к введению семантики в математические документы,
как пример рассмотрены преимущества и недостатки таких форматов как
OMDoc, LATEX.
Реализован алгоритм перевода математических формул из семантического вида в вид поддерживаемый MаthJax. Создан Web-сервис который позволяет представить коллекцию, а также производить семантический поиск
по данному документу. Дальнейшее исследование предполагает машинный
перевод из OMDoc-документа, машинное создание OMDoc-документов, создание среды-помощника в создании семантического математического документа, создание автоматического словаря глоссария на основе проведенной
работы. Все это актуально в связи с переходом научной активности в интернет пространство. Отметим также проект всемирной цифровой библиотеки.