ВВЕДЕНИЕ 3
ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ ПОДХОДОВ ПОИСКА ПО МАТЕМАТИЧЕСКИМ ТЕКСТАМ 5
ГЛАВА 2. ТЕОРЕТИЧЕСКИЕ МОДЕЛИ И ПОДХОДЫ ДЛЯ ЗАДАЧИ
МАТЕМАТИЧЕСКОГО ПОИСКА 8
2.1 LaTeXML 8
2.2 Терминологическая разметка математических текстов 10
2.3 Resource Description Framework 14
2.4 Алгоритмы связывания математических выражений 16
2.4.1 Шаг 1. Формирование триплета с отношением rdf:is 16
2.4.2 Шаг 2. Формирование триплета с отношением rdfxontains 18
ГЛАВА 3. РАЗРАБОТКА ПРИЛОЖЕНИЯ-ДЛЯ ПОИСКА
МАТЕМАТИЧЕСКИХ ФОРМУЛ 20
3.1 Архитектура приложения и используемые технологии 20
3.1.1 Структура ASP.NET приложения 20
3.1.2 Библиотека MathJax 21
3.1.3 Библиотека dotNetRDF 22
3.2 Описание объектно-ориентированной модели для математических выражений и их определений 22
3.3 Страница для работы с XML и RDF файлами 24
3.4 Страница просмотра содержимого RDF файла 27
3.5 Страница поиска математических выражений по их текстовому
описанию 28
3.6 Оценка результатов и эксперименты 31
ЗАКЛЮЧЕНИЕ 33
СПИСОК ЛИТЕРАТУРЫ 34
ПРИЛОЖЕНИЯ 37
Приложение 1. Пример XML-файла 37
Приложение 2. Пример RDF-файла 38
Приложение 3. Исходный код приложения
Поиск по математическим документам - актуальная и быстроразвивающаяся область исследований. На сегодняшний день существуют хорошо известные системы, такие как GoogleScholar, MicrosoftAcademicSearch, которые реализуют полнотекстовый поиск по ключевым словам в научных коллекциях и интернет ресурсах. Такие системы очень удобны для конечного пользователя, но в них отсутствует поиск по математическим формулам, при котором конечному пользователю предлагается формулировать запрос на поиск математической формулы в форме ключевых слов. Кроме них существует ряд специализированных систем поиска по математическим формулам, которые предлагают формировать запрос в синтаксисе языка разметки LaTeX (например, SpringerLaTeXSearch, Wikipedia) или MathML, используя графические интерфейсы.
Целью данной работы является разработка приложения для поиска математических формул в текстах научных статей.
Основная задача - разработка алгоритма связывания символьных переменных математических формул с текстовыми описаниями переменных (задача текстового аннотирования переменных математической формулы).
Задача текстового аннотирования переменных математической формулы является весьма трудоемкой и поэтому разработка графического приложения для поиска математических формул несомненно является актуальной задачей для систем обработки математического текста.
Для достижения этой цели требуется выполнить ряд подзадач:
• Изучить предметную область и способы представления математических текстов.
• Разработать алгоритм выделения математических
выражений из LaTeX нотации документов.
• Разработать алгоритм разбора LaTeX представления математических выражений (выделение переменных).
• Разработать алгоритм определения контекста, в котором находится текстовое определение переменной.
• Осуществить морфологическую разметку контекста.
• Разработать алгоритм сопоставления математического выражения и сопоставить с его определением.
• Сохранить полученные результаты в удобном для поиска представлении.
• Разработать приложение для математического поиска.
Разработанные алгоритмы и приложение могут быть применены и использованы в следующих областях:
• Поиск информации.
• Поиск математических формул по текстовым описаниям переменных (ключевым словам).
• Семантическое аннотирование математической статьи.
• Поиск расширенного представления формулы.
• Разметка текста в электронном корпусе языка.
• Извлечение знаний.
• Машинное обучение и др.
Данная работа состоит из трех основных глав, заключения, списка использованной литературы и приложений. В работе описываются алгоритмы поиска и связывания математических формул с их определениями, а также программный инструмент, предоставляющий новые возможности для поиска математических формул в текстах научных статей.
В данной работе подробно описаны используемая технология разработки, хорошо документированы все программные составляющие.
В ходе проделанной работы получены следующие результаты:
• Изучена и проанализирована предметная область и способы представления математических текстов.
• Разработан алгоритм выделения математических выражений их текстов научных статей в LaTeX нотации.
• Осуществлена терминологическая разметка текста.
• Разработан алгоритм сопоставления математического выражения и его текстового описания.
• Результаты работы алгоритма связывания сохранены в формате RDF.
• Разработано программное обеспечение для поиска математических выражений по ключевым словам в текстах научных статей на языке программирования C# с использованием платформы ASP.NET Framework.
• Проведена оценка эффективности алгоритма, предложены способы его улучшения и развития.
Разработанная поисковая система является хорошим прототипом для систем подобного класса и новым программным продуктом, ранее не представленным в литературе.
1. А.М. Elizarov, Е.К. Lipachev, О.A. Nevzorova, and V.D. Solov’ev, “Methods and means for semantic structuring of electronic mathematical documents,” Doklady Mathematics, vol. 90, no. 1, pp. 521-524, 2014, doi: 10.1134/S1064562414050275.
2. O.A. Nevzorova, E.V. Birialtsev, and N.G. Zhiltsov, “Mathematical Text Collections: Annotation and Application for Search Tasks,” Sci. Tech.Inf. Proc., vol. 40, no. 6, pp. 386-395, 2013
3. O. Nevzorova, N. Zhiltsov, A. Kirillovich, and E. Lipachev, “OntoMathPRO ontology: a linked data hub for mathematics,” In: Klinov P., Mouromtsev D. (eds.) KESW 2014. Communications in Computer and Information Science, Springer, vol. 468, pp. 105-119, 2014, doi: 10.1007/978-3- 319-11716- 4_9.
4. A. Elizarov, A. Kirillovich, E. Lipachev, O. Nevzorova, V. Solovyev, and N. Zhiltsov, “Mathematical knowledge representation: semantic models and formalisms,” Lobachevskii J. of Mathematics, vol. 35, no 4, pp. 347-353, 2014, doi: 10.1134/S 1995080214040143.
5. O. Nevzorova, N. Zhiltsov, D. Zaikin, O. Zhibrik, A. Kirillovich, V. Nevzorov, and E. Birialtsev, “Bringing Math to LOD: a semantic publishing platform prototype for scientific collections in mathematics,” In: Alani H. et al (eds) 12th Int. Semantic Web Con-ference, Sydney, NSW, Australia, October 21- 25, 2013, Proceedings, Part I. Lecture Notes in Computer Science, vol. 8218, pp. 379-394. Springer Berlin Heidelberg, 2013.
6. A.M. Elizarov, A.B. Kirillovich, E.K. Lipachev, A.B. Zhizhchenko, and N.G. Zhiltsov, “Mathematical Knowledge Ontologies and Recommender Systems for Collections of Documents in Physics and Mathematics,” Doklady Mathematics, vol. 93, no. 2, pp. 231-233, 2016, doi: 10.1134/S 1064562416020174.
7. A. Elizarov, A. Kirillovich, E. Lipachev, and O. Nevzorova. “Digital Ecosystem OntoMath: Mathematical Knowledge Analytics and Management,” Communications in Computer and Information Science, Springer, vol. 706, pp 33- 46,2017, doi: 10.1007/978-3- 319-57135-5_3.
8. A.M. Elizarov, E.K. Lipachev, M.A. Malakhaltsev, “Web Technologies for Mathematicians: The Basics of MathML. A Practical Guide,’’Fizmatlit, Moscow, 2010.
9. M. Kohlhase, B.A. Matican, CC. Prodescu. “MathWebSearch 0.5: Scaling an Open Formula Search Engine,” In: Jeuring J. et al. (eds) Intelligent Computer Mathematics. CICM 2012. Lecture Notes in Computer Science, vol 7362. Springer, Berlin, Heidelberg, pp. 342-357, 2012, doi: 10.1007/978-3- 642-31374- 5 23.
10. A. Kohlhase, M. Kohlhase and C. Lange “sTeX - a system for flexible formalization of linked data,” Proceedings of the 6th International Conference on Semantic Systems, ACM, pp. 57-60,2010, doi: 10.1145/2034691.2034703.
11. M. Kohlhase. “OMDoc-An Open Markup Format for Mathematical Documents [version 1.2],” Lecture Notes in Computer Science, vol. 4180, Springer, 428 p, 2006, doi: 10.1007/11826095.
12. V. Solovyev, N. Zhiltsov, “Logical structure analysis of scientific publications in mathematics,” In: Akerkar, R. (ed.) Proceedings of the International Conference on Web Intelligence, Mining and Semantics (WIMS 2011), ACM DL, vol. 21, pp. 1-9, 2011, doi: 10.1145/1988688.1988713.
13. T.W. Cole, I. Daubechies, K.M. Carley, J.L. Klavans, Y. LeCun, M. Lesk, C.A. Lynch, P. Olver, J. Pitman, and Z.J. Xia. “Developing a21st century global library for mathematics research. Washington, D.C.,” The National Academies Press, Washington, D.C, 2014.
14. P.J. Olver, “The World Digital Mathematics Library: report of a panel discussion,” Proceedings of the International Congress of Mathematicians, August 13-21, 2014, Seoul, Korea. Kyung Moon SA, vol. 1, pp. 773-785,2014.
15. R. Miller, and A. Youssef. “Augmenting Presentation MathML for Search.,” In: Autexier S. et al. (Eds.): AISC/Calculemus/MKM 2008, LNAI 5144, pp. 536- 542, 2008.
16. R. Zanibbi, A. Orakwue. “Math Search for the Masses: Multimodal Search Interfaces and Appearance-Based Retrieval,” In: Kerber M., Carette J., Kaliszyk C., Rabe F., Sorge V. (eds) Intelligent Computer Mathematics. CICM 2015. Lecture Notes in Computer Science, vol 9150. Springer, Cham, pp. 18-36, 2015, doi: 10.1007/978-3- 319-20615- 8_2.
17. G. Topic, G.Y. Kristianto, M.-Q. Nghiem, A. Aizawa. “The MCAT Math Retrieval System for NTCIR-10 Math Track,” In: Proceedings of the 10th NTCIR Conference, pp. 680-685, 2013.
18. G.Y. Kristianto, G. Topic, F. Ho, A. Aizawa. “The MCAT Math Retrieval System for NTCIR-11 Math Track,” In: Proceedings of the 11th NTCIR Conference, pp. 120-126, 2014.