ВЕБ-ПРИЛОЖЕНИЕ ДЛЯ ПОИСКА МАТЕМАТИЧЕСКИХ ФОРМУЛ
|
ВВЕДЕНИЕ 3
1 ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ 5
2 ПОДХОДЫ К ПОИСКУ ФОРМУЛ 7
2.1 Семантический поиск 10
2.1.1 Разметка презентационного уровня 11
2.1.2 Разметка семантического уровня 12
2.2 Алгоритм поиска 13
3 РЕАЛИЗАЦИЯ 19
3.1 Обоснование выбранных технологий 19
3.2 Загрузка данных 21
3.3 Индексирование 22
3.4 Поиск по фрагментам 23
3.5 Поиск по наименованиям переменных 28
3.6 Пользовательский интерфейс 31
ЗАКЛЮЧЕНИЕ 33
СПИСОК ЛИТЕРАТУРЫ 34
ПРИЛОЖЕНИЕ 36
1 ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ 5
2 ПОДХОДЫ К ПОИСКУ ФОРМУЛ 7
2.1 Семантический поиск 10
2.1.1 Разметка презентационного уровня 11
2.1.2 Разметка семантического уровня 12
2.2 Алгоритм поиска 13
3 РЕАЛИЗАЦИЯ 19
3.1 Обоснование выбранных технологий 19
3.2 Загрузка данных 21
3.3 Индексирование 22
3.4 Поиск по фрагментам 23
3.5 Поиск по наименованиям переменных 28
3.6 Пользовательский интерфейс 31
ЗАКЛЮЧЕНИЕ 33
СПИСОК ЛИТЕРАТУРЫ 34
ПРИЛОЖЕНИЕ 36
Поиск в математических документах на сегодня является актуальным и динамично развивающимся направлением исследований (см. [1, 2, 15]). Как известно, смысл математических текстов в основном определяется их формульным содержанием: авторы многих работ отмечают (см., например, [15]), что около 80% содержательной информации математических научных статей располагается в представленных в них формулах.
Для того чтобы цифровые библиотеки служили своей цели в полной мере, пользователи должны иметь возможность легко и эффективно искать в них информацию, особенно уравнения, функции и другие виды конструкций. Данный поиск будет особенно полезен в исследовательских работах для осуществления быстрого поиска и установления сходств и связей.
Информационные системы общего назначения, осуществляющие поиск научных публикаций, довольно хорошо справляются с поиском текстового содержания статей. Примерами таких систем являются Google Scholar, Microsoft Academic Search, CiteseerX. Однако поиск математических формул, теорем, доказательств и уравнений является проблематичным. Данные системы оперируют символами и их порядком. Таким образом, любое математическое выражение будет рассматриваться лишь как набор символов без учёта самой структуры. А потому выражения ху и ху для них будут эквиваленты, что является абсолютно неверным с точки зрения математики. Конечно, поисковики порой выдают желаемый результат, но, как правило, это происходит благодаря удачно подобранным ключевым словосочетаниям.
Также существуют специализированные системы поиска математических выражений, например, (uni)quation [4] индексирует формулы из статей Википедии, научных форумов; The Digital Library of Mathematical Functions (DLMF) [5] представляет собой онлайн-проект для разработки основного ресурса математических справочных данных. Запрос в данных системах строится в синтаксисе языка разметки LaTeX.
Отличительной чертой данной работы является то, что представлен алгоритм поиска математических выражений по наименованиям входящих в них переменных.
Целью дипломной работы является реализация веб-приложения для поиска математических выражений в статьях интернет-энциклопедии Wikipedia по фрагменту формулы в TeX-нотации и по наименованиям переменных.
Для достижения данной цели решаются следующие задачи:
• Поиск и загрузка статей энциклопедии при помощи Wikipedia API;
• Определение стандартизированного вида для математических выражений и преобразование к нему формул;
• Лемматизация статей;
• Г енерирование регулярного выражения на основе запроса, учитывающее эквивалентность и частотность переменных;
• Аннотирование формул и переменных;
• Поиск и ранжирование результатов;
• Создание пользовательского интерфейса.
Для того чтобы цифровые библиотеки служили своей цели в полной мере, пользователи должны иметь возможность легко и эффективно искать в них информацию, особенно уравнения, функции и другие виды конструкций. Данный поиск будет особенно полезен в исследовательских работах для осуществления быстрого поиска и установления сходств и связей.
Информационные системы общего назначения, осуществляющие поиск научных публикаций, довольно хорошо справляются с поиском текстового содержания статей. Примерами таких систем являются Google Scholar, Microsoft Academic Search, CiteseerX. Однако поиск математических формул, теорем, доказательств и уравнений является проблематичным. Данные системы оперируют символами и их порядком. Таким образом, любое математическое выражение будет рассматриваться лишь как набор символов без учёта самой структуры. А потому выражения ху и ху для них будут эквиваленты, что является абсолютно неверным с точки зрения математики. Конечно, поисковики порой выдают желаемый результат, но, как правило, это происходит благодаря удачно подобранным ключевым словосочетаниям.
Также существуют специализированные системы поиска математических выражений, например, (uni)quation [4] индексирует формулы из статей Википедии, научных форумов; The Digital Library of Mathematical Functions (DLMF) [5] представляет собой онлайн-проект для разработки основного ресурса математических справочных данных. Запрос в данных системах строится в синтаксисе языка разметки LaTeX.
Отличительной чертой данной работы является то, что представлен алгоритм поиска математических выражений по наименованиям входящих в них переменных.
Целью дипломной работы является реализация веб-приложения для поиска математических выражений в статьях интернет-энциклопедии Wikipedia по фрагменту формулы в TeX-нотации и по наименованиям переменных.
Для достижения данной цели решаются следующие задачи:
• Поиск и загрузка статей энциклопедии при помощи Wikipedia API;
• Определение стандартизированного вида для математических выражений и преобразование к нему формул;
• Лемматизация статей;
• Г енерирование регулярного выражения на основе запроса, учитывающее эквивалентность и частотность переменных;
• Аннотирование формул и переменных;
• Поиск и ранжирование результатов;
• Создание пользовательского интерфейса.
Результатом данной выпускной квалификационной работы является вебприложение, позволяющее производить поиск математических выражений по фрагменту формулы в нотации TeX и по текстовым наименованиям переменных, входящих в формулу. Данная работа размещена по следующему адресу: http: //gititis. kpfu.ru/EkaterinaMyF ormulaSearch.
Реализованные алгоритмы поиска обеспечили достаточную релевантность в сочетании с хорошей скоростью работы.
Алгоритм поиска формулы по фрагменту учитывает следующие особенности:
• Эквивалентность переменных;
• Множественное вхождение переменной.
Анализ полученных результатов в случае использования поиска по наименованиям переменных показал, что они практически всегда имеют непосредственное отношение к искомому запросу.
Однако можно указать на некоторые моменты, которые потребуют дальнейшего исследования. Так, присутствует проблема определения символьной переменной, если в окрестности определения величины располагается больше одного символа.
Второй выявленный аспект касается поиска формулы по её наименованию. Реализованный алгоритм не позволяет явно указать, что введённая строка является наименованием формулы, а не входящим в неё параметром. Реализация этой возможности не потребует значительного изменения поисковых алгоритмов. Будет достаточным указать, что поисковый запрос должен находиться в некотором диапазоне выражения.
Реализованные алгоритмы поиска обеспечили достаточную релевантность в сочетании с хорошей скоростью работы.
Алгоритм поиска формулы по фрагменту учитывает следующие особенности:
• Эквивалентность переменных;
• Множественное вхождение переменной.
Анализ полученных результатов в случае использования поиска по наименованиям переменных показал, что они практически всегда имеют непосредственное отношение к искомому запросу.
Однако можно указать на некоторые моменты, которые потребуют дальнейшего исследования. Так, присутствует проблема определения символьной переменной, если в окрестности определения величины располагается больше одного символа.
Второй выявленный аспект касается поиска формулы по её наименованию. Реализованный алгоритм не позволяет явно указать, что введённая строка является наименованием формулы, а не входящим в неё параметром. Реализация этой возможности не потребует значительного изменения поисковых алгоритмов. Будет достаточным указать, что поисковый запрос должен находиться в некотором диапазоне выражения.
Подобные работы
- РАЗРАБОТКА ВЕБ-ПРИЛОЖЕНИЯ
ДЛЯ АВТОМАТИЧЕСКОЙ ПРОВЕРКИ КОНТРОЛЬНЫХ ЗАДАЧ
ПО АНАЛИТИЧЕСКОЙ ГЕОМЕТРИИ
Магистерская диссертация, физика. Язык работы: Русский. Цена: 5580 р. Год сдачи: 2025 - ПОИСК НАУЧНЫХ СТАТЕЙ ПО НАЗВАНИЯМ ФОРМУЛ И
ВКЛЮЧЕННЫМ В НИХ ПЕРЕМЕННЫХ
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 5600 р. Год сдачи: 2018 - Имитационное моделирование загрязнения водных объектов взвешенными веществами с использованием клиентских веб-технологий
Бакалаврская работа, экономика. Язык работы: Русский. Цена: 4600 р. Год сдачи: 2025 - Поиск документов по математическим выражениям, представленный средствами языка MathML
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 6500 р. Год сдачи: 2019 - СРАВНЕНИЕ MATHML И XML
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 6500 р. Год сдачи: 2019 - МЕТОД ФОРМИРОВАНИЯ СЕМАНТИЧЕСКОГО ПРЕДСТАВЛЕНИЯ
ЦИФРОВЫХ МАТЕМАТИЧЕСКИХ ДОКУМЕНТОВ НА ОСНОВЕ
OMDOC
Дипломные работы, ВКР, математика. Язык работы: Русский. Цена: 4780 р. Год сдачи: 2017 - СРАВНЕНИЕ XML И MATHML
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2018 - Разработка моделей и методов семантического аннотирования математических статей
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4825 р. Год сдачи: 2016 - Цифровой образовательный ресурс на базе web-платформы как средство обучения геометрии в 9 классе
Дипломные работы, ВКР, педагогика. Язык работы: Русский. Цена: 4750 р. Год сдачи: 2018



