Введение 3
1 Аналитический обзор 6
1.1 Анализ существующих подходов следования текста из гипотезы 6
1.1.1 Лексический подход 7
1.1.2 Синтаксический подход 10
1.1.3 Подход основанный на семантике 11
1.1.4 Подход основанный на логический формах 13
1.1.5 Гибридный подход 15
1.2 Выводы 17
2 Проектирование решения 18
2.1 Анализ математических статей 19
2.1.1 Анализ аннотаций 19
2.1.2 Анализ текста статьи 21
2.2 Архитектура системы 23
3 Реализация решения 24
3.1 Модуль предварительной обработки текста 25
3.2 Модуль поиска результатов в аннотации 28
3.3 Модуль нахождения кандидатов в результаты 28
3.4 Модуль выявления степени схожести кандидатов 29
3.5 Модуль записи результатов 30
4 Результаты 31
5 Заключение 33
Список используемой литературы
Приложение А. Исходный код системы 38
Магистерская диссертация посвящена проблеме выделения главных результатов в математических статьях на основе обработки аннотации, при котором полученные результаты в математической статье будут корректны по отношению к ней. Актуальность данной темы исследования заключается в том, что разработка подобных алгоритмов является основой автоматизации сопоставления результатов, описанных в аннотации к результатам статьи. Это позволяет эффективно обрабатывать большие объемы информации, так как аннотации научных статей не раскрывают информацию полностью, а результат, найденный в статье, позволит сократить время на поиск необходимого материала.
Так как результаты, описанные в аннотации и в тексте математической статьи, являются вариативностью семантического выражения, где одно и то же значение выражено разными текстовыми фрагментами, то правильное толкование текста теоретически потребует тщательной семантической интерпретации в виде логического представления его значений.
Таким образом, данную задачу можно отнести к процессу распознавания текстового следования (Recognizing Textual Entailment - RTE).[6] Данная тема впервые была поднята в 2005 году как общая задача, которая охватывает основные потребности нахождения семантического следования во многих системах обработки естественного языка, таких как:
1) системы краткого изложение текста (Text Summarization - SUM);
2) системы поиск информации (Information Retrieval -IR);
3) вопросно-ответные системы (Question Answering - QA);
4) системы извлечения информации (Information Extraction - IE);
5) системы машинного перевода (Machine Translation - MT). [6]
Таким образом, распознавание текстового следования является популярным направлением исследований в последние годы.
Текстовое следование (Textual Entailment - TE) - это процесс выявления следования одного фрагмента текста из другого. Эти два фрагмента называются текстом (Text - T) и гипотезой (Hypothesis - H).
Начиная с первой задачи PASCAL RTE [6] на сегодняшний день были предложены различные методы. Популярным направлением является использование различных подходов машинного обучения, которые полагаются на извлечение набора функций, основанных на лежащей в основе синтаксической / семантической / лексической связи между TH-парой. Большинство подходов были применены и протестированы на английском языке TE.
Для русского языка в области RTE проведено меньше исследований, так как он является одним из сложных языков для обработки из-за его морфологического богатства и свободного порядка слов. Кроме того, для русского языка по-прежнему нет большого количества размеченных наборов данных. В основном они являются коммерческими и их нет в свободном доступе. Напротив, для английского языка существуют ресурсы: WordNet [8], ресурс VerbOcean [9] и т.д. Поэтому при создании системы RTE для русского языка возникает ряд трудностей: невозможность применения машинного обучения из-за отсутствия наборов данных, использования методов, которые требуют внешние источники знаний (крупные корпуса, основанные на синтаксических и семантических отношениях слов, размеченные наборы данных).
Следовательно, необходимо найти такой способ определения следования главных результатов в математических статьях на основе обработки аннотации, который не столкнется с вышеперечисленными проблемами.
Целью данной работы является разработка метода автоматического поиска результатов в математических статьях. Чтобы достичь этой цели необходимо решить следующие задачи:
• разработать метод анализа математических статей, учитывающий специальную терминологию, представленную в словаре предметной онтологии;
• разработать метод обработки статей на русском языке;
• разработать компьютерный метод лингвистического анализа математических статей на русском языке;
• разработать метод нахождения результатов в аннотации;
• составить онтологию результатов математических статей;
• разработать систему, позволяющую находить в тексте математической статьи результаты, упомянутые в аннотации.
В первой главе проведен анализ существующих подходов и рассмотрены их системы.
Во второй главе описан процесс проектирования решения.
В третьей главе описана реализация решения.
Четвертая глава содержит результаты тестирования разработанной системы.
В разделе «Заключение» подводятся итоги выполненной работы.
В магистерской диссертации были решены следующие задачи:
• разработан метод анализа математических статей, учитывающий специальную терминологию, представленную в словаре предметной онтологии;
• разработан компьютерный метод лингвистического анализа математических статей на русском языке;
• разработан метод нахождения результатов в аннотации;
• составлена онтология результатов математических статей;
• разработана система, позволяющая находить в тексте математической статьи результаты, упомянутые в аннотации.
В настоящей работе исследованы подходы, позволяющие решить актуальные проблемы компьютерного семантического анализа математических статей и получены первые результаты, позволяющие распознавать в тексте главные результаты статьи, описанные в аннотации. Выявлены причины, по которым разработанный алгоритм встречает затруднения в своей работе.
Перспективы развития данной работы заключаются в рассмотрении и применении других подходов распознавания результатов статей, а также доработке алгоритма для повышения качества распознавания результата в математической статье:
• доработка модуля нахождения кандидатов в результаты, учитывая замечания, описанные в главе результатов;
• доработка модуля выявления степени схожести кандидатов;
• применение подходов, основанных на машинном обучении;
• внедрение гибридных методов.
[1] Платформа IBM, developerWork.
url: https: //www.ibm. com/developerworks/ru/library/x-hiperfparse/
[2] Платформа pymorphy2. Высокопроизводительный анализ XML в Python с помощью lxml. url: http://pymorphy2.readthedocs.io/en/latest/
[3] Платформа Habr. Word2Vec в примерах url: https://habr.com/post/249215/
[4] Елизаров А.М. Управление математическими знаниями: онтологические модели и цифровые технологии / А.М. Елизаров, А.В. Кириллович, Е.К. Липачёв, О.А. Невзорова // Аналитика и управление данными в областях с интенсивным использованием данных: сборник статей XVIII Междун. конф. DAMDID/RCDL'2016 . - М.: ФИЦ ИУ РАН, 2016. - С.95-101.
[5] Левицкий Л. И. и др. Pyteomics-открытая библиотека для анализа протеомных данных средствами языка Python.
url: http://itas2011.iitp.ru/pdf/1569463485.pdf
[6] Dagan I., Glickman O., Magnini B. The PASCAL recognising textual entailment challenge //Machine learning challenges. evaluating predictive uncertainty, visual object classification, and recognising tectual entailment. - Springer, Berlin, Heidelberg, 2006. - С. 177-190.
[7] Платформа OREILLY. Textual entailment with TensorFlow, url: https://www.oreilly.com/learning/textual-entailment-with-tensorflow
[8] Miller G. A. WordNet: a lexical database for English //Communications of the ACM. - 1995. - Т. 38. - №. 11. - С. 39-41.
[9] Chklovski T., Pantel P. Verbocean: Mining the web for fine-grained semantic verb relations //Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. - 2004.
[10] Androutsopoulos I., Malakasiotis P. A survey of paraphrasing and textual entailment methods //Journal of Artificial Intelligence Research. - 2010. - Т. 38. - С. 135-187.
[11] Majumdar D., Bhattacharyya P. Lexical based text entailment system for main task of RTE6. - 2010.
[12] Majumdar D., Bhattacharyya P. Lexical based text entailment system for main task of RTE6. - 2010.
[13] Adams R. et al. Textual entailment through extended lexical overlap and lexico-semantic matching //Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing. - Association for Computational Linguistics, 2007. - С. 119-124.
[14] Hirst G. et al. Lexical chains as representations of context for the detection and correction of malapropisms //WordNet: An electronic lexical database. - 1998. - Т. 305. - С. 305-332.
[15] Burchardt A. et al. A semantic approach to textual entailment: System evaluation and task analysis //Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing. - Association for Computational Linguistics,
2007. - С. 10-15.
[16] Majumdar D., Bhattacharyya P. Lexical based text entailment system for main task of RTE6. - 2010.
[17] Iftene A. Using Textual Entailment in Internet Surveillance //Language Resources and Tools with Industrial Applications. - С. 49.
[18] Tatu M. et al. Cogex at the second recognizing textual entailment challenge //Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment. - 2006. - С. 104-109.
[19] Bos J., Markert K. Recognising textual entailment with logical inference //Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. - Association for Computational Linguistics, 2005. - С. 628-635.
[20] Wang R., Neumann G. An divide-and-conquer strategy for recognizing textual entailment //Proc. of the Text Analysis Conference, Gaithersburg, MD. - 2008.
[21] Mei R., Fu H., Li X. A Hybrid Approach to Textual Entailment Recognition //International Conference on Mechatronics, Electronic, Industrial and Control Engineering (MEIC 2014). - 2014.
[22] Pakray P., Bandyopadhyay S., Gelbukh A. Textual entailment using lexical and syntactic similarity //International Journal of Artificial Intelligence and Applications. - 2011. - Т. 2. - №. 1. - С. 43-58.
[23] Bray T. et al. Extensible markup language (XML) //World Wide Web Journal. - 1997. - Т. 2. - №. 4. - С. 27-66.