Тема: Алгоритм извлечения связей в научных цифровых коллекциях
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
2 Постановка задачи 4
2.1 Общий вид 4
2.2 Формальный вид 4
3 Типы отношений в научных документах 5
3.1 Иерархические 5
3.2 Вспомогательные 6
3.3 Свойства отношений 7
4 Алгоритмы извлечения отношений 8
4.1 Алгоритмы KNN и MKNN 8
4.2 Алгоритм, основанный на онтологии 8
4.2.1 NELL 9
4.3 Системы, использующие алгоритм шаблонов 12
4.3.1 Snowball 12
4.3.2 OpenIE6 3.0 (OLLIE) 14
4.4 Сравнение рассмотренных систем 18
5 Алгоритм извлечения отношения <автор, отношение, автор > 19
5.1 Реализация 20
5.2 Результат 21
6 Заключение 26
7 Приложение
📖 Введение
Одной из особенностей естественного языка является возможность представления одной информации многими разными способами даже на определенном одном языке. Естественным образом возникает необходимость некоторого единого представления и структурирования данного исходного неструктурированного текста. Как только информация, представленная в тексте, становится упорядоченной и привязанной к некоторой системе идентификаторов, появляется возможность для автоматической работы с ней: извлечения связей, поиска нужной информации, поиска похожих текстов и прочих задач обработки текста.
В данной работе мы рассмотрели одну из перечисленных задач, как извлечение связей между публикациями. При работе с коллекцией неструктурированных текстов возникает вопрос о связности публикаций. В данной работе мы попытаемся ответить на этот вопрос.
Целью моей дипломной работы является создание алгоритма, который осуществит выявления связи между авторами статей и публикаций.
Данная работа поделена на несколько блоков.
В первом блоке отмечена постановка задачи в общем и формальном видах.
Во втором блоке рассмотрены типы отношений и их свойства.
В третьем блоке дан обзор уже существующих алгоритмов и систем, подробно рассмотрена их работа, представлено сравнение систем.
В четвертом блоке предложен алгоритм извлечения связей между публикациями в рамках определенной научной коллекции, предоставлено описание и показана его реализация.
В блоке "Приложение" прикреплен код программы, осуществляющий извлечение отношений между авторами публикации, т.е. показывает публикацию, написанную определенными авторами и доступные ссылки на скачивание, а также прикреплен XML - файл, в котором прописаны метаданные о публикации. Представленная программа выполнена в виде веб-приложения на языке РНР.
✅ Заключение
В ходе реализации программы были рассмотрены следующие случаи:
• общий случай, при котором формы заполнены в последовательности, указанной в публикации.
• заполнение форм в последовательности, отличающейся от указанной в публикации.
• отсутствие совместных публикаций.
• возможность написания с ошибкой
При дальнейшем исследовании данной темы и усовершенствования алгоритма предполагает автоматизирование извлечения всех метаданных из публикаций формата .txt и .pdf с целью заполнения словаря, возможность поиска связей при запросе, указывающем не всех авторов, возможность считывания метаданных с публикаций, выложенных на сайтов для работы во всемирной паутине. На сегодняшний день вышеперечисленные дополнения актуальны в связи с переходом бумажной научной коллекции на цифровую и предназначены для более удобной работы с публикациями.



