Введение 3
Основные понятия 7
Цель работы 8
Классификация формулировок теорем 9
Формулировки теорем в условной форме 11
Формулировки теорем в категорической форме 14
Определение антецедента 16
Определение части речи и грамматических характеристик 19
Выбор программных средств для реализации 22
Алгоритм работы программы 25
Формат вывода результата работы программы 30
Системные требования и инструкция 31
Примеры работы программы 32
Заключение 35
Список литературы 36
Листинг 37
В настоящее время Всемирная паутина охватывает все больше и больше различных областей не только повседневной жизни, но и науки, предоставляет огромные возможности для сбора, фильтрации и использования найденной информации в любой сфере. В частности, сегодняшние информационные технологии и инструменты машинного обучения позволяют значительно повысить удобство при работе с различного рода литературой. В сети можно найти множество электронных библиотек с миллионами оцифрованных текстов, лингвистические корпуса, используемые в качестве базы для исследования языка, электронные словари, тезаурусы, онтологии.
Разумеется, подобные справочные системы также совершенно необходимы в наукоемких видах деятельности.
В большинстве научных дисциплин, включая математику, веб-доступ к цифровым ресурсам, предоставляющим необходимую литературу, весьма развит и эффективен. Используя как открытые, так и запатентованные материалы и инструменты, математики могут найти немалое количество информации, используя различные атрибуты поиска, такие как предмет исследования, название работы, автора, дату и ключевые слова; они могут воссоздать историю исследований автора за прошедшие годы. Но, несмотря на то, что много информации содержится в отдельных элементах математической литературы, гораздо большее ее количество незримо связано как между собой, так и с другими областями. То есть эти логические цепочки могут быть представлены не только в виде прямых отсылок, но и в виде некоторой внутренней взаимосвязи понятий, идей и методик.
Это вдохновило группу единомышленников на создание Всемирной цифровой математической библиотеки (World Digital Mathematics Library). В течение последних нескольких лет математики прилагают совместные усилия по оцифровке прошлого математической литературы для того, чтобы сделать
его доступным в Интернете. Цель состоит в том, чтобы собрать как можно больше имеющейся литературы и организовать к ней доступ, храня оцифрованные версии всего свода математических исследований, как современных, так и гораздо более ранних, в распределенной системе взаимосвязанных хранилищ.
Более того, WDML будет представлять собой не просто коллекцию оцифрованных научных статей и книг, она также будет включать в себя возможности для поиска, добавления ссылок, аннотирования, индексации, классификации, нахождения источника, разного рода вычислений и т. д., то есть содержать все наиболее востребованные опции, которые, тем не менее, выходят за рамки нынешних возможностей таких систем, как Zentralblatt MATH, Google Scholar, Wolfram Alpha. Тем самым WDML намеревается поддержать новое поколение математических исследований.
Продумывая возможности всемирной цифровой математической библиотеки, создатели учли недостатки существующих справочных математических систем и выделили несколько главных характеристик. Библиотека должна быть:
• современной;
• хорошо организованной;
• общедоступной;
• исчерпывающей;
• надежной;
• простой в использовании для не математиков.
Современные средства позволяют разработать машиночитаемый репозиторий, в котором теоремы, леммы и определения формализованы и представляются в виде утверждений, выражений и логических высказываний, тесно связанных между собой.
Очевидно, что при этом все формулировки должны однозначно восприниматься машиной (примером может служить LaTeX). Кроме этого, такие технологии, как RDF и OWL7, являясь моделью семантического представления данных, могут быть полезны для машинной обработки теорем. Эти технологии являются достаточно гибкими, что позволит пользователям расширить онтологии. Языки разметки также могут быть полезными, поскольку они общеизвестны, и с помощью них можно закодировать многие важные теоремы.
Хранилище будет доступно внешним программам через некоторый интерфейс. Исследователи же, скорее всего, будут представлять свои наработки через веб-интерфейс, так как это поможет заранее создать «упоминание» о проведенном исследовании и получить неопровержимые доказательства о том, кто провел его первым. Ведь есть много известных случаев, когда теоремы были доказаны несколькими лицами независимо друг от друга, но с использованием различной терминологии.
Данное хранилище сможет обнаружить повторяющиеся термины и теоремы, чтобы исследователи могли сосредоточиться на новых результатах, а не доказывать то, что уже известно.
Другой вопрос, заслуживший рассмотрения в WDML, это список открытых математических проблем. При этом у каждой из проблем должен быть постоянно поддерживаемый статус и актуальные ссылки на подходящую литературу. Это хороший способ для стимулирования к новым научным открытиям.
Кроме этого, немалую важность при создании библиотеки будут представлять поиск и навигация.
Пользователи должны иметь возможность перемещаться и исследовать корпус доступных для них математических документов. Это отличается от стандартного поиска по ключевым словам, ведь возможность быстро найти релевантную информацию об объекте исследований может помочь математику решить, стоит ли рассматривать текущую статью.
Такая дополнительная информация об объекте может включать другие статьи, в которых обсуждается тот же, более общий или более конкретный вопрос; описание того, когда и где этот объект был впервые определен в литературе; перечень справочных ресурсов с информацией об объекте; различные представления объекта (например, фрагмент LaTeX или как Mathematica кода).
Для этого потребуются системы математических знаний и научные работы различных областей, а именно:
• анализ текста;
• представления математических знаний;
• компьютерная лингвистика и корпусы математических текстов;
• инструменты для мета-обработки данных в области математики;
• MathML, OpenMath, TeX и другие стандарты математического содержания;
• математическое сканирование и индексирование;
• письменные архивы;
• организация поиска в математических текстах.
Последнее вплотную касается темы данной дипломной работы, поскольку поиск в теоремах, леммах и аксиомах подразумевает большие возможности выбора параметров и критериев поиска. В частности, структурированный вид формулировок теорем позволяет искать информацию в определенной части теоремы: в условии или заключении. Данный способ поиска позволяет отталкиваться в исследованиях от имеющейся информации и находить наиболее подходящие исследованию варианты теорем.
Тема данной дипломной работы - исследование типов формулировок теорем - является совершенно новой, а создание программного продукта, осуществляющего парсинг теорем, в настоящий момент времени не имеет аналогов.
Тем не менее, актуальность данной работы очевидна в связи с постепенным созданием всемирной цифровой математической библиотеки, где программа, написанная в процессе проведенного исследования, будет призвана помочь с организацией поиска по математическим статьям, а именно с определением структуры формулировок теорем на русском языке.
В процессе написания дипломного проекта было выполнено следующее:
• разработана классификация формулировок теорем;
• описаны варианты формулировок в условной форме на основании нескольких литературных математических источников;
• описан алгоритм нахождения антецедента для личных и притяжательных местоимений, встречающихся в теоремах;
• создан программный продукт, осуществляющий парсинг теорем (выделение условия и заключения либо аргумента и предиката);
• получены оценки числа правильно обрабатываемых формулировок теорем на множестве случайным образом выбранных теорем из различных разделов математики.
В результате дипломного проектирования были закреплены навыки, полученные за время обучения, а также получен исследовательский опыт.
Программа написана при помощи генераторов лексического и синтаксического анализаторов lex и yacc, описывающих программу на языке C.
1. Дюбин Г.Н., Суздаль В.Г. Введение в прикладную теорию игр. - М.: Наука, 1981. - 336 с.
2. Фихтенгольц Г.М. Курс дифференциального и интегрального исчисления. - М.: ФИЗМАТЛИТ, 2001. т.1 - 616с.
3. Самарский А.А., Гулин А.В. Численные методы. - М.: Наука, 1989. - 432 с.
4. Чернова Н.И. Теория вероятностей. Учебное пособие. - 139 с.
5. Гусенков А.М. Специализированные языки обработки информации и автоматизация их построения. Методическое пособие. - Казань, 2010. - 59 с.
6. P. J. Olver, The World Digital Mathematics Library: Report of a Panel Discussion, 2014. - 16 с.
7. Developing a 21st Century Global Library for Mathematics Research. - The National Academies Press Washington, D.C., 2014. - 131 c.
8. Википедия - свободная энциклопедия [Электронный ресурс]. - http://wikipedia.org
9. I. Segalovich A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine, 2003. - 8 с.
10. Ахренова Н.А. Нахождение анафорических связей при автоматическом анализе текста (на материале английского языка), 2003. - 219 с.