Введение 2
2 Постановка задачи 4
2.1 Общий вид 4
2.2 Формальный вид 4
3 Типы отношений в научных документах 5
3.1 Иерархические 5
3.2 Вспомогательные 6
3.3 Свойства отношений 7
4 Алгоритмы извлечения отношений 8
4.1 Алгоритмы KNN и MKNN 8
4.2 Алгоритм, основанный на онтологии 8
4.2.1 NELL 9
4.3 Системы, использующие алгоритм шаблонов 12
4.3.1 Snowball 12
4.3.2 OpenIE6 3.0 (OLLIE) 14
4.4 Сравнение рассмотренных систем 18
5 Алгоритм извлечения отношения <автор, отношение, автор > 19
5.1 Реализация 20
5.2 Результат 21
6 Заключение 26
7 Приложение
На сегодняшний день текстовая аналитика является одним из главных направлений разработок информационных технологий, а структурирование информации, описанной на естественном языке и извлечение из нее связей - одной из важных задач для современного общества.
Одной из особенностей естественного языка является возможность представления одной информации многими разными способами даже на определенном одном языке. Естественным образом возникает необходимость некоторого единого представления и структурирования данного исходного неструктурированного текста. Как только информация, представленная в тексте, становится упорядоченной и привязанной к некоторой системе идентификаторов, появляется возможность для автоматической работы с ней: извлечения связей, поиска нужной информации, поиска похожих текстов и прочих задач обработки текста.
В данной работе мы рассмотрели одну из перечисленных задач, как извлечение связей между публикациями. При работе с коллекцией неструктурированных текстов возникает вопрос о связности публикаций. В данной работе мы попытаемся ответить на этот вопрос.
Целью моей дипломной работы является создание алгоритма, который осуществит выявления связи между авторами статей и публикаций.
Данная работа поделена на несколько блоков.
В первом блоке отмечена постановка задачи в общем и формальном видах.
Во втором блоке рассмотрены типы отношений и их свойства.
В третьем блоке дан обзор уже существующих алгоритмов и систем, подробно рассмотрена их работа, представлено сравнение систем.
В четвертом блоке предложен алгоритм извлечения связей между публикациями в рамках определенной научной коллекции, предоставлено описание и показана его реализация.
В блоке "Приложение" прикреплен код программы, осуществляющий извлечение отношений между авторами публикации, т.е. показывает публикацию, написанную определенными авторами и доступные ссылки на скачивание, а также прикреплен XML - файл, в котором прописаны метаданные о публикации. Представленная программа выполнена в виде веб-приложения на языке РНР.
В настоящей работе были рассмотрены вопросы при выполнении извлечения отношений при работе с текстом, определение отношений, типы отношений и их свойства. Дан обзор алгоритмов извлечения отношений и систем, извлекающих отношения на основе онтологий, шаблонов. Предложен алгоритм, выявляющий связи между авторами в виде совместно написанных публикаций. Создан Web-сервис, который позволяет обнаружить связь между статьями следующим образом: пользователь вводит в формы фамилии, имена и отчества автором для поиска семантической связи между ними. Количество авторов может достигать n человек. Приложение в свою очередь выводит результат в виде таблицы, содержащий название публикации, год издания, издательство, а также кликабельные URL - ссылки, по которым можно перейти на сайт для доступного скачивания публикации. Количество ссылок может быть не ограничено.
В ходе реализации программы были рассмотрены следующие случаи:
• общий случай, при котором формы заполнены в последовательности, указанной в публикации.
• заполнение форм в последовательности, отличающейся от указанной в публикации.
• отсутствие совместных публикаций.
• возможность написания с ошибкой
При дальнейшем исследовании данной темы и усовершенствования алгоритма предполагает автоматизирование извлечения всех метаданных из публикаций формата .txt и .pdf с целью заполнения словаря, возможность поиска связей при запросе, указывающем не всех авторов, возможность считывания метаданных с публикаций, выложенных на сайтов для работы во всемирной паутине. На сегодняшний день вышеперечисленные дополнения актуальны в связи с переходом бумажной научной коллекции на цифровую и предназначены для более удобной работы с публикациями.
[1] Мочалова А. В. Алгоритм Семантического анализа текста, основан¬ный на базовых семантических шаблонах с удалением. / А. В. Моча¬лова. // Научно-технический вестник информационных технологий, механики и оптики. - 2014. - А5 5(93). - С. 126-132.
[2] Панченко А. И. Извлечение семантических отношений из статей Ви¬кипедии С помощью алгоритмов ближайших соседей. / А. И. Пан¬ченко, С. А. Адейкин, А. В. Романов, П. В. Романов // Открытые системы. - 2012. - № 16. - С. 18-27.
[3] Carlson A. Toward an Architecture for Never-Ending Language Learning. / A. Carlson, J. Betteridge, B. Kisiel, B. Burr Settles, E. R.Jr Hruschka, T. Mitchell - 2010.
[4] Carlson A. Coupled semi-supervised learning for information extraction //Proceedings of the third ACM international conference on Web search and data mining. /А. Carlson - ACM, 2010. - C. 101-110.
[5] Quinlan J. R. FOIL: A midterm report //Machine Learning: ECML-93. / J. R. Quinlan, R. M. Cameron-Jones // Springer Berlin Heidelberg, 1993. - C. 1-20.
[6] Horn A. On sentences which are true of direct unions of algebras / A. Horn //Journal of symbolic logic. - 1951. - C. 14-21.
[7] Agichtein E. Snowball: Extracting relations from large plain-text collections / E. Agichtein, L. Gravano //Proceedings of the fifth ACM conference on Digital libraries. - ACM, 2000. - C. 85-94.
[8] Schmitz M. Open language learning for information extraction / M. Schmitz //Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Com-putational Natural Language Learning. - Association for Computational Linguistics, 2012. - C. 523-534.
[9] Fader A. Identifying relations for open information extraction / A. Fader, S. Soderland, O. Etzioni //Proceedings of the Conference on Empirical Methods in Natural Language Processing. - Association for Computational Linguistics, 2011. - C. 1535-1545.
[10] Елизаров A.M. Методах и средства семантического структурирования электроннвхх математических документов. / А.М. Елизаров, Е.К. Ли- пачёв, О.А. Невзорова, В. Д. Соловвев // Докладах РАН. - 2014. - Т. 457. - № 6. - С. 642-645.
[11] Когаловский М.Р. ,Паринов С.И. Научнвхе коммуникации на базе электроннвхх библиотек с онлайновой декларацией семантических связей CEUR-Workshop Proceedings. / М. Р. Когаловский, С. И. Па¬ринов //- 2014. - Vol. 1297. - Р.81-89. URL:http://ceur-ws.org/ Vol-1297/081-89_paper-14.pdf.
[12] Elizarov А.М. Mathematical knowledge representation: semantic models and formalisms / A. M. Elizarov, A. V. Kirillovich, E. K. Lipachev, O.A. Nevzorova, V. D. Solovyev, N. G. Zhiltsov // Lobachevskii J. of Mathematics. - 2014. - V. 35. - No 4. - P. 347-353.
[13] Куршев Е.П., Сулейманова E.A., Трофимов И.В., Ролв знаний в си¬стемах извлечения информации из текстов, Программнвхе системах: теория и приложения / Е. П. Куршев, Е. А. Сулейманова, И. В. Тро¬фимов //- 2012, том 3, выпуск 3, 57-70
[14] Паринов С.И. Технология семантического структурирования контен¬та научнвхх электроннвхх библиотек / С. И. Паринов, М. Р. Когалов-
ский // CEUR-Workshop Proceedings. - 2011. - Vol. 803. - P.94-103.
URL: http://ceur-ws.org/Vol-803/paperl3.pdf.
[15] Когаловский М.Р. Научные коммуникации на базе электронных библиотек с онлайновой декларацией семантических связей CEUR- Workshop Proceedings. / М. Р. Когаловский, С. И. Паринов //- 2014.
- Vol. 1297. - Р.81-89. URL:http://ceur-ws.org/Vol-1297/081-89_ paper-14.pdf.
[16] Ландэ Д. В. Модель предметной области на основе сервиса Google Scholar Citations/ Д. В. Ландэ // CEUR-Workshop Proceedings. - 2015.
- Vol. 1536. - Р.57-61. URL:http://ceur-ws.org/Vol-1536/paper8. pdf.
[17] Елизаров А.М. Управление математическими знаниями: онтологи¬ческие модели и цифровые технологии / А. М. Елизаров, А. В. Кириллович, Е. К. Липачёв, О. А. Невзорова// CEUR-Workshop Proceedings. - 2016. - Vol. 1752. - P.44-50. URL: http: //ceur-ws. org/ Vol-1752/paper08.pdf.