1 Введение 2
2 Постановка задачи 5
3 Предварительные сведения 6
4 Семантическая связь 8
4.1 Определение 8
4.2 Свойства отношений 8
4.3 Типовые отношений 9
4.3.1 Категория иерархических отношений 9
4.3.2 Категория вспомогательных отношений 10
5 Обзор алгоритмов извлечения отношений 12
5.1 Алгоритмах основание на мере близости 12
5.2 Алгоритм, оснований на антологиях предметных областях 13
5.3 Алгоритм, основанный на шаблонах 14
5.3.1 Базовые семантические шаблонах 15
5.3.2 Алгоритм нахождения семантических зависимостей с
помощью базовых семантических шаблонов
Алгоритм извлечения отношений 19
6.1 Реализация 23
6.2 Эксперимент 26
Заключение
Приложение
Текстовая аналитика на сегодняшний день является одним из основных направлений разработок информационных технологий, а структурирование информации, представленной на естественном языке и извлечение из нее знаний, объектов, сущностей и т.д. - одной из главных задач для современного общества.
С появлением интернета ежедневно генерируется большое количество цифрового текста в виде новостных статей, исследовательских публикаций, блогов, форумов ответов на вопросы и социальных сетей. В связи с этим важной задачей перед современным обществом стоит задача разработать методы автоматического извлечения информации из этих документов, так как в них скрыто много важных знаний.
Эта извлеченная информация может быть использована для улучшения доступа и управления знаниями, которые скрыты в больших текстовых данных. Задача извлечения отношений состоит в том, чтобы идентифицировать такие отношения автоматически.
Одной из самых важных особенностей естественного языка является возможность представления одной информации большим количеством различных способов даже в на одном языке. Учитывая данную особенность возникает необходимость некоего определенного общего или же единого представления и структурирования некоторого поступающего исходного неструктурированного текста. Как только информация, описанная в тексте, становится упорядоченной и привязанной к некоторой определенной системе признаков, появляется возможность для автоматической обработки этой информации: выделение терминов, извлечение метаданных, поиска необходимой информации, извлечение связей, похожих текстов, извлечения знаний, создания рекомендательной системы и т.д.
В данной работе мы рассмотрели одну из перечисленных задач, как извлечение связей в виде принадлежности авторов научных публикаций с определенными базами.
Целью моей дипломной работы является создание приложения, которое будет выявлять связи между авторами и их профилями в научных реферативных базах.
Данная работа поделена на несколько глав.
Первая глава представляет собой введение.
Во второй главе отмечена постановка задачи.
В третьей главе приведены общие предварительные сведения.
Четвертая глава посвящена семантическим связям: рассмотрены определения понятия "семантическая связь"с различных источников, изучены свойства связей и рассмотрены типы связей.
В пятой главе дан обзор уже существующих алгоритмов извлечения семантических связей.
В шестой главе представлено разработанное приложение, описана его работа, а так же проведен эксперимент.
В блоке "Приложение"прикреплен код программы, созданной в рамках данной работы, осуществляющее сбор информации по научным реферативным базам.
Результаты работы, по мере их получения, докладывались на Международной научной конференции «Лобачевские чтения-2017», студенческой научной конференции КФУ-2017, Международной научной конференции «Лобачевские чтения-2018», студенческой научной конференции КФУ- 2018, студенческой научной конференции КФУ-2019. Опубликованы две научные статьи:
1. Э.М. Сабитова. Алгоритм извлечения связей в научных цифровых
коллекциях // Труды Математического центра имени Н. И. Лобачевского // Материалы шестнадцатой молодежной научной школы- конференции. 2017. - Т. 55 - С. 123-125.
2. Батыршина Р.Р. Метод организации цифровых коллекций на основе метаданных и системы семантических связей / Р.Р. Батыршина, Е.К. Липачев, Э.М. Сабитова, К.А. Семенова // Труды математического центра им. Н.И. Лобачевского. - 2018. - Т. 56. - С. 338-341.
В данной магистерской работе представлены результаты исследования возможности применения предложенного нами алгоритма для экстракции метаданных, основываясь на семантических связях.
Дан обзор алгоритмов извлечения семантических связей, используемых на данный момент. Предложен свой метод, реализованный на языке
C #
Программа выполняет:
• Получает на вход файл формата pdf или txt
• Осуществляет поиск авторов
• Осуществляет поиск метаданных, имеющих отношение в извлеченным авторам
• Записывает все полученные метаданные в XML - файл
В целях оценки качества был проведен эксперимент с использованием цифровой коллекции «Трудов математического центра им. Н.И. Лобачевского», как целого тома так и отдельных публикаций. Результаты эксперимента показали, что приложение выполняет свои цели.
Таким образом, поставленные перед магистерской работой цели были достигнуты, все задачи были выполнены.
Разработанное приложение значительно облегчает процесс улучшит метаданных. Приложение является удобным для пользования. Пользователь за небольшое количество времени имеет структурированный XML - файл с автоматически собранной из научных реферативных баз информацией. Данное приложение приводит к значительной экономии времени сбора информации.
[1] Carlson A. Coupled semi-supervised learning for information extraction //Proceedings of the third ACM international conference on Web search and data mining. /А. Carlson - ACM, 2010. - C. 101-110.
[2] Wiley J. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data Published, 2015. - 435 c. ISBN: 978-1118-87613-8
[3] Elizarov A.M. Mathematical knowledge representation: semantic models and formalisms / A. M. Elizarov, A. V. Kirillovich, E. K. Lipachev, O.A. Nevzorova, V. D. Solovyev, N. G. Zhiltsov // Lobachevskii J. of Mathematics. - 2014. - V. 35. - No 4. - P. 347-353.
[4] Workman M. Semantic web: Implications for technologies and business practices (1st ed.), 2016. - 234 c. Springer. 10.1007/978-3-319-16658-2
[5] Елизаров A.M. Методы и средства семантического структурирования электронных математических документов. / А.М. Елизаров, Е.К. Ли- пачёв, О.А. Невзорова, В. Д. Соловвев // Доклады РАН. - 2014. - Т. 457. .V 6. С. 642-645.
[6] Паринов С.И. Технология семантического структурирования контента научных электронных библиотек / С. И. Паринов, М. Р. Когалов- ский // CEUR-Workshop Proceedings. - 2011. - Vol. 803. - P.94-103. URL: http://ceur-ws.org/Vol-803/paperl3.pdf.
ринов //- 2014. - Vol. 1297. - P.81-89. URL:http://ceur-ws.org/ Vol-1297/081-89_paper-14.pdf.
[8] Fader A. Identifying relations for open information extraction / A. Fader, S. Soderland, O. Etzioni //Proceedings of the Conference on Empirical Methods in Natural Language Processing. - Association for Computational Linguistics, 2011. - C. 1535-1545.
[9] Грант С. IIiiгереолл Обработка неструктурированных текстов. Поиск, организация и манипулирование. / С. Ингерсолл Грант, С. Мортон Томас, Л. Фэррис Эндрю; Пер. с англ. Слинкин А. А. М.: ДМК Пресс, 2015. - 414 с.: ил.
[10] Akbik A., Brob J. Extracting semantic relations from natural language text using dependency grammar patterns // ResearchGate. - 2019.
[11] Сабитова Э.М. Алгоритм извлечения связей в научных цифровых коллекциях // Труды Математического центра имени Н. И. Лобачевского // Материалы шестнадцатой молодежной научной школы- конференции. 2017. - Т. 55 - С. 123-125.
[12] Agichtein Е. Snowball: Extracting relations from large plain-text collections / E. Agichtein, L. Gravano //Proceedings of the fifth ACM conference on Digital libraries. - ACM, 2000. - C. 85-94.
[14] Argenis A. Zapata Semantic Relationships . - IV изд. Ingles , 2008. - 154 c.
[15] Панченко А. И. Извлечение семантических отношений из статей Википедии С помощью алгоритмов ближайших соседей. / А. И. Панченко, С. А. Адейкин, А. В. Романов, П. В. Романов // Открытые системы. - 2012. - № 16. - С. 18-27.
[16] Carlson A. Toward an Architecture for Never-Ending Language Learning. / A. Carlson, J. Betteridge, B. Kisiel, B. Burr Settles, E. R.Jr Hruschka, T. Mitchell - 2010.
[17] Lohmann S., Negru S., Haag F., Ertl T. Visualizing Ontologies with VOWL // Semantic Web. 2016. Vol. 7, no. 4. P. 399-419.
[18] Лукашевич H. В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011. 512 с.
[19] Schmitz М. Open language learning for information extraction / M. Schmitz //Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Com-putational Natural Language Learning. - Association for Computational Linguistics, 2012. -
C. 523-534.
[20] Елизаров A.M., Кириллович А.В., Липачёв E.K., Невзорова О.А. Управление математическими знаниями: онтологические модели и цифровые технологии // CEUR-Workshop Proceedings. - 2016. - Vol. 1752. - P.44-50. URL: http://ceur-ws.org/Vol-1752/paper08.pdf.
[22] Мочалова А. В. Алгоритм Семантического анализа текста, основанный на базовых семантических шаблонах с удалением. / А. В. Мочалова. // Научно-технический вестник информационных технологий, механики и оптики. - 2014. - А5 5(93). - С. 126-132.
[23] Новикова Д.С. Автоматическое выделение терминов из текстов предметных областей и установление связей между ними. / Д.С. Новикова // Конференции на РУДН, Информационно-телекоммуникационные технологии и математическое моделирование вв1СОкотехнологичнв1х систем. - 2012.
[24] Elizarov A.M. Scientific documents ontologies for semantic representation of digital libraries / A.M. Elizarov, Sh.M. Khaydarov, E.K. Lipachev // 2017 Second Russia and Pacific Conference on Computer Technology and Applications (RPC). Vladivostok, Russky Island, Russia 25-29 September, 2017. - pp. 1-5.
[25] Бхаргава А. Б. Грокаем алгоритмы. Иллюстрированное пособие для программистов и любопытствующих / А. Б. Бхаргава СПб.: Питер, 2017. - Серия «Библиотека программиста».
[26] Елизаров А.М.. Веб-технологии для математика: основы MathML Практическое руководство. / А.М. Елизаров, Е.К. Липачёв, М.А. Ма- лахалвцев - М.: ФИЗМАТЛИТ, 2010. - 192 с
[28] Батыршина Р.Р. Метод организации цифровых коллекций на основе метаданных и системы семантических связей / Р.Р. Батыршина, Е.К. Липачев, Э.М. Сабитова, К.А. Семенова // Труды математического центра им. Н.И. Лобачевского. - 2018. - Т. 56. - С. 338-341.