1 Введение 7
2 Предварительные сведения 9
2.1 Семантика 9
2.2 WorldWideWeb 9
2.3 XML 10
2.4 Метаданные 10
2.5 MathML 11
2.6 Документы формата OMDoc 12
2.7 RDF 12
2.8 ТЕХи LTEX 12
2.9 STEX 13
2.10 PHP 13
2.11 Python 14
3 Математика и машинная обработка 15
3.1 Представление математических символов 15
3.1.1 Среды, ориентированные на типографию 15
3.1.2 Web-ориентированные среды 15
3.2 Преимущества и недостатки MathML представления 17
4 Подходы к данной проблеме 18
4.1 OpenMath 18
4.2 Система KWARC 18
4.2.1 Подпроекты проекта KWARK 20
4.2.2 OMDoc - язык представления математических доку¬
ментов 21
4.2.3 STEX 22
4.3 MathLang 24
5 Инструменты для работы с OMDoc 25
5.1 Алгоритм приложения 25
5.1.1 Работа с форматом OMDoc и создание XML библиотеки 26
5.1.2 Обработка математических конструкций в данной библиотеке 27
5.1.3 Создание сервиса работающего с данной библиотекой 28
5.2 Результат 29
6 Заключение 31
Список литературы 32
Приложение
Развитие интернета в настоящее время связно с семантической обработкой информации[6]. Семантическая обработка текстовых файлов затруднена тем, что документы не имеют аналогов характерных для математических документов структурных единиц, можно отметить и разницу в
строениях различных естественных языков. Самой популярной в математическом сообществе языком для набора математических документов является язык разметки TEX/LATEX. TEX/LATEXдокумент, в свою очередь, хоть и
имеет элементы семантики, но их использование ограниченно, что не дает полноценной возможности его семантической обработки. Чтобы реализовать семантику математических документов есть несколько вариантов —
вводить новый хорошо поддающийся компьютерной обработке документ,
а затем переводить все старые документы к новому формату, включать в
данный документ надстройки, реализующие семантику документа, создавать программы способные включать семантику в уже готовый документ.
В результате такого подхода существует возможность не только удобно машинно обрабатывать документы, но и находить связи между документами
на разных языках. Это позволит на основе основных математических документов собирать новые документы, электронные учебные пособия, а также
электронные системы обучения, облегчит поиск информации.
Введение семантики в документы, а также в Web является отправной точкой к созданию Web 3.0. Если введение семантики в обычные документы
можно ограничить семантикой по ключевым словам, то в математике существую определенные смысловые конструкции такие как определения аксиомы, доказательства, наличие таких конструкций как формулы, а также
строгость выражений в математике сочетающаяся гибкостью человеческого
языка усложняет ввод в подобные документы семантики.
В представленной работе представлен обзор методов введения семантики
в математический документ, предложенных различными группами ученых
по всему миру. Пока не существует идеального способа вводить семантику,
поэтому каждый из предложенных подходов имеет свои недостатки, обу-
7словленные строением подхода.
Для развития семантических технологий желательно увеличить количество
подходов к проблеме чтобы выбрать самый оптимальный для каждого из
случаев. Наиболее рациональным является использование такого языка как
XML, таким образом возникает необходимость создание приложения осуществляющего визуальное представление документа.
[10] Введение семантики в документы, особенно в математические, заключает в себе некоторые проблемы. Например проблема неудобства восприятия человеком исходного кода документа. В исходном коде семантического документа существуют конструкции отвечающие именно за семантику, к
примеру автор документа, а также конструкции которые не существуют или
существуют в неполном виде такие как связи между элементами, а также
ссылки и другие характерные особенности семантических документов.
Как цель работы предложен алгоритм преобразования документа в который
ведена семантика к читаемому виду.
На основе этого алгоритма предложен Web-сервис работающий с коллекцией документов имеющих семантическое представление, и составляет словарь терминов, обеспечивает поиск среди них и выводит список документов, в которых встречается это определение
В настоящей работе были рассмотрены вопросы, связанные с проблемами интеллектуальной обработки математических текстов, исследованы
различные форматы представления математических документов. Дан обзор
различных подходов к введению семантики в математические документы,
как пример рассмотрены преимущества и недостатки таких форматов как
OMDoc, LATEX.
Реализован алгоритм перевода математических формул из семантического вида в вид поддерживаемый MаthJax. Создан Web-сервис который позволяет представить коллекцию, а также производить семантический поиск
по данному документу. Дальнейшее исследование предполагает машинный
перевод из OMDoc-документа, машинное создание OMDoc-документов, создание среды-помощника в создании семантического математического документа, создание автоматического словаря глоссария на основе проведенной
работы. Все это актуально в связи с переходом научной активности в интернет пространство. Отметим также проект всемирной цифровой библиотеки.
[1] Field C., The data science handbook/С. Field// John Wiley & Sons, Inc.,
2017. -417 p.
[2] Елизаров, А.М., Основы MathML. Представление математических текстов в Internet. Практическое руководство. / А.М. Елизаров, Е.К. Липачев, М.А. Малахальцев.// М.: ФИЗМАТЛИТ, 2008. — 100 с.
[3] Елизаров А.М., Веб-технологии для математика:основы MathML. Практическое руководство. / А.М. Елизаров, Е.К. Липачев, М.А. Ма-лахальцев.// М.: ФИЗМАТЛИТ, 2010. — 192 с.
[4] Yu L. A Developer’s Guide to the Semantic Web/L. Yu// Springer-Verlag, 2014. — 841 p.
[5] Droste M.,Semantics of programming languages and model theory/ M. Droste,Y. Gureevich//Gordon and breach science publishers,GB. 1993
— 276 p.
[6] Harris D., Web 2.0 Evolution Web 2.0 Evolution into The Intelligent Web 3.0: 100 Most Asked Questions on Transformation, Ubiquitous Connectivity, Network Computing, Open Technologies, Open Identity, Distributed Databases and Intelligent Applications./ D. Harris// Manning Publications Co,NY, 2008 — 148 p.
[7] Aley R., PHP Beyond the Web/R. Aley// Apress,United Kingdom,— 2016.
— 214 p.
[8] Elizarov A.M., Mathematical knowledge representation: semantic models and formalisms./ A.M. Elizarov, A.V Kirillovich, E.K. Lipachev, O.A. Nevzorova, V.D. Solovyev, N.Z. Zhiltsov// Lobachevskii Journal of Mathematics., 2014.— V. 35(4). P. 347-353.
[9] Trust J.P.G., Introduction to Metadata 3.0/J.P.G. Trust// Getty Research Institute, Los Angeles Getty Publications, 2008. — 176 p.
[10] Kohlhase M., OMDoc: An Open Markup Format for Mathematical Documents/M. Kohlhase//Computer Science International University Bremen, Germany August 11, 2009. — 480 p.
[11] Powers S., Practical RDF/S. Powers// O’Reilly Media,— July 2003. — 350 p.
[12] Gratzer G.,More Math Into LaTeX/G. Gratzer//Springer, 2016—609 p.
[13] Kohlhase M.,STEX: Semantic Markup in TEX/LTEX/M. Kohlhase// FB Informatik, Universitat des Saarlandes D-66041 Saarbrucken, Germany, 2008. — 56 p.
[14] KWARC: Knowledge Adaptation and Reasoning for Content URL: https://kwarc.info/
[15] Kohlhase M., Semantic Markup in TEX/LTEX/M. Kohlhase// Computer Science, Jacobs University Bremen, Germany.,2016. — 18 p.
[16] Васильев А.Н., Python на примерах. Практический курс -по програм- мированию./А.Н. Васильев//СПб.: аука и Техника,2016. — 432 с.
[17] Davenport J.,On Writing OpenMath Content Dictionaries/J Davenport// Getty Research Institute, Los Angeles Getty Publications, 2008. — 176 p.
[18] Kohlhase M., eMath 3.0: Building Blocks for a Social and Semantic Web for Online Mathematics & eLearning /M. Kohlhase, C. David,D. Ginev, J Cornely.// Computer Science, Jacobs University Bremen, Germany.— October 27, 2010 — 14 p.
[19] Kohlhase M., Co-Representing Structure and Meaning of Mathematical Documents/M. Kohlhase,M. Iancu// Computer Science, Jacobs University Bremen, Germany. October 26, 2015 — 24 p.
[20] Kamareddine F.,Computerizing Mathematical Text with MathLang/F. KamareddineJ.B. Wells// Electronic Notes in Theoretical Computer Science—6 April, 2008—V.205, P. 5-30
[21] Developing a 21st Century Global Library for Mathematics Research. Washington, The National Academies Press, 2014.— 131 p. Retrieved from: URL: http://arxiv.org/abs/1404.1905.
[22] Гафурова П.О.,Метод обработки математических документов в фор-мате OMDoc / П.О. Гафурова // Труды Математического центра имени Н. И. Лобачевского. Т. 53. Казанское математическое общество. «Ло¬бачевские чтения - 2016». Материалы Пятнадцатой молодежной на¬учной школы-конференции (под общей редакцией С. Р Насырова). — Казань: Издательство Казанского математического общества, Изд-во Академии наук РТ, 2016. —- Т. 53. —- C. 70-73.
[23] Ingersoll G.S.,Taming Text. How to find, organize, and manipulate it/ G.S. Ingersoll,T.S. Morton, A.L. Farris// Manning Publications Co,NY, 2000. — 38 p.