Тема: МЕТОДЫ ВЫДЕЛЕНИЯ ГЛАВНЫХ РЕЗУЛЬТАТОВ НА ОСНОВЕ ОБРАБОТКИ АННОТАЦИЙ МАТЕМАТИЧЕСКИХ СТАТЕЙ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Аналитический обзор 6
1.1 Анализ существующих подходов следования текста из гипотезы 6
1.1.1 Лексический подход 7
1.1.2 Синтаксический подход 10
1.1.3 Подход основанный на семантике 11
1.1.4 Подход основанный на логический формах 13
1.1.5 Гибридный подход 15
1.2 Выводы 17
2 Проектирование решения 18
2.1 Анализ математических статей 19
2.1.1 Анализ аннотаций 19
2.1.2 Анализ текста статьи 21
2.2 Архитектура системы 23
3 Реализация решения 24
3.1 Модуль предварительной обработки текста 25
3.2 Модуль поиска результатов в аннотации 28
3.3 Модуль нахождения кандидатов в результаты 28
3.4 Модуль выявления степени схожести кандидатов 29
3.5 Модуль записи результатов 30
4 Результаты 31
5 Заключение 33
Список используемой литературы
Приложение А. Исходный код системы 38
📖 Введение
Так как результаты, описанные в аннотации и в тексте математической статьи, являются вариативностью семантического выражения, где одно и то же значение выражено разными текстовыми фрагментами, то правильное толкование текста теоретически потребует тщательной семантической интерпретации в виде логического представления его значений.
Таким образом, данную задачу можно отнести к процессу распознавания текстового следования (Recognizing Textual Entailment - RTE).[6] Данная тема впервые была поднята в 2005 году как общая задача, которая охватывает основные потребности нахождения семантического следования во многих системах обработки естественного языка, таких как:
1) системы краткого изложение текста (Text Summarization - SUM);
2) системы поиск информации (Information Retrieval -IR);
3) вопросно-ответные системы (Question Answering - QA);
4) системы извлечения информации (Information Extraction - IE);
5) системы машинного перевода (Machine Translation - MT). [6]
Таким образом, распознавание текстового следования является популярным направлением исследований в последние годы.
Текстовое следование (Textual Entailment - TE) - это процесс выявления следования одного фрагмента текста из другого. Эти два фрагмента называются текстом (Text - T) и гипотезой (Hypothesis - H).
Начиная с первой задачи PASCAL RTE [6] на сегодняшний день были предложены различные методы. Популярным направлением является использование различных подходов машинного обучения, которые полагаются на извлечение набора функций, основанных на лежащей в основе синтаксической / семантической / лексической связи между TH-парой. Большинство подходов были применены и протестированы на английском языке TE.
Для русского языка в области RTE проведено меньше исследований, так как он является одним из сложных языков для обработки из-за его морфологического богатства и свободного порядка слов. Кроме того, для русского языка по-прежнему нет большого количества размеченных наборов данных. В основном они являются коммерческими и их нет в свободном доступе. Напротив, для английского языка существуют ресурсы: WordNet [8], ресурс VerbOcean [9] и т.д. Поэтому при создании системы RTE для русского языка возникает ряд трудностей: невозможность применения машинного обучения из-за отсутствия наборов данных, использования методов, которые требуют внешние источники знаний (крупные корпуса, основанные на синтаксических и семантических отношениях слов, размеченные наборы данных).
Следовательно, необходимо найти такой способ определения следования главных результатов в математических статьях на основе обработки аннотации, который не столкнется с вышеперечисленными проблемами.
Целью данной работы является разработка метода автоматического поиска результатов в математических статьях. Чтобы достичь этой цели необходимо решить следующие задачи:
• разработать метод анализа математических статей, учитывающий специальную терминологию, представленную в словаре предметной онтологии;
• разработать метод обработки статей на русском языке;
• разработать компьютерный метод лингвистического анализа математических статей на русском языке;
• разработать метод нахождения результатов в аннотации;
• составить онтологию результатов математических статей;
• разработать систему, позволяющую находить в тексте математической статьи результаты, упомянутые в аннотации.
В первой главе проведен анализ существующих подходов и рассмотрены их системы.
Во второй главе описан процесс проектирования решения.
В третьей главе описана реализация решения.
Четвертая глава содержит результаты тестирования разработанной системы.
В разделе «Заключение» подводятся итоги выполненной работы.
✅ Заключение
• разработан метод анализа математических статей, учитывающий специальную терминологию, представленную в словаре предметной онтологии;
• разработан компьютерный метод лингвистического анализа математических статей на русском языке;
• разработан метод нахождения результатов в аннотации;
• составлена онтология результатов математических статей;
• разработана система, позволяющая находить в тексте математической статьи результаты, упомянутые в аннотации.
В настоящей работе исследованы подходы, позволяющие решить актуальные проблемы компьютерного семантического анализа математических статей и получены первые результаты, позволяющие распознавать в тексте главные результаты статьи, описанные в аннотации. Выявлены причины, по которым разработанный алгоритм встречает затруднения в своей работе.
Перспективы развития данной работы заключаются в рассмотрении и применении других подходов распознавания результатов статей, а также доработке алгоритма для повышения качества распознавания результата в математической статье:
• доработка модуля нахождения кандидатов в результаты, учитывая замечания, описанные в главе результатов;
• доработка модуля выявления степени схожести кандидатов;
• применение подходов, основанных на машинном обучении;
• внедрение гибридных методов.



