Введение 4
Глава 1 Постановка задачи 6
Глава 2 Предварительные определения и сведения 7
2.1 Семантическое аннотирование: определения и методы 7
2.2 Онтологический подход к аннотированию 11
2.2.1 Основные определения 11
2.2.2 Примеры онтологий 13
2.3 Метаданные 17
2.3.1 Определение 17
2.3.2 Средства представления метаданных 18
Глава 3 Обзор работ по данной тематике 20
3.1 Терминологическое аннотирование 20
3.2 ScienceWise как пример веб-интерактивная семантическая платформа
для научного сотрудничества 22
3.3 Семантическое аннотирование публикаций в системе Соционет 23
Глава 4 Семантическое описание видео контента цифровых научных
коллекций 26
4.1 Онтологии описания медиаресурсов 26
4.2 Семантическое описания видео контента 26
4.2.1 Описание набора элементов метаданных Dublin Core и EBUCore. 26
4.2.2 Xml-язык для описания видеозаписей 28
4.2.3 Xml-схема 29
Глава 5 Описание видео ресурсов на научных порталах 31
5.1 Видео контент на портале Math-Net.ru 31
5.2 TIB AV-Portal 33
Глава 6 Коллекция видео лекций цифровой математической библиотеки 38
6.1 Состав видео коллекции 38
6.2 XML-язык описания видео контента 40
6.3 XML-схема для описания видео контента математических коллекций 41
6.4 Создание базы аннотаций 42
Глава 7 Заключение 44
Список литературы 45
Приложения 49
В настоящее время объемы данных в сети Интернет растут с огромной скоростью. Вследствие чего возникает ряд проблем при обмене или распространении людьми информацией, которая необходима для их обработки. Одной из проблем является то, что смысл информации не всегда корректно воспринимается человеком, который получает некоторые знания, так как у каждого человека уровень просвещенности в определенных темах разный. На рисунке 1 показано, какой путь проходят знания при движении
между отправителем и получателем.
Для решения данной проблемы необходимо, чтобы информация, описанная на естественном языке, и знания, которые содержатся в документе, были структурированы таким образом, что помимо образованного человека, компьютер так же мог «понимать» смысл документа, то есть контекст. Слово «понимать» предполагает, что компьютер должен уметь обрабатывать документ, используя правила, которые ему уже известны, при помощи определенного логического языка, а также должен обладать способностью вывода новых данных и сведений из документа.
Одним из методов решения данной проблемы является семантическое аннотирование цифровых документов на основе онтологии. Использование семантического аннотирования обогащает, а также облегчает восприятие информационных ресурсов пользователями [1].
Также была поставлена задача о нахождении методов для описания видео контента для внедрения их в цифровую математическую библиотеку Лобачевского [2]. В настоящее время существует множество видео ресурсов с научным содержанием: лекции, семинары, доклады. Но, так как о видеозаписи в текстовом формате описывается малое количество информации, то есть видеозапись часто не снабжена метаданными, их польза на данный момент намного принижена, чем могла бы быть.
В первой главе дана постановка задачи и цели данной работы.
Во второй главе представлены основные сведения и определения, которые связаны с темой настоящей работы.
В третьей главе даны обзоры работ по интересующей нас тематике, предложенные другими авторами.
В четвертой главе речь идет о семантическом описании видео контента цифровых научных коллекций.
В пятой главе проведен обзор о научных порталах, в которых введен видео контент. Рассмотрены их достоинства и недостатки.
В шестой главе речь идет о цифровой коллекции, которую мы выбрали для обработки. Предложены XML-файл и XML-схема для описания видео контента математических коллекций.
В седьмой главе сделан вывод о проделанной работе.
В ходе настоящей работы была обработана видео коллекция научно-популярных лекций, проведенных в Казанском федеральном университете в рамках года Лобачевского, который проходил в 2017 году. Данные лекции были подвержены ручному аннотированию, то есть каждая лекция была снабжена ключевыми словами, текстовыми аннотациями и метаданными.
Для выполнения поставленной задачи были изучены уже существующие работы, связанные с семантическим аннотированием цифровых ресурсов. Под цифровыми ресурсами подразумеваются данные текстового формата и аудиовизуальные ресурсы. Также были тщательно изучены существующие на данный момент онтологии. Для реализации моей задачи я отобрала основные онтологии, с помощью которых, был предложен XML-язык и реализовано семантическое аннотирование в виде XML-схемы видео контента математической коллекции.
В настоящей работе были рассмотрены и изучены примеры представления видео контента с научным содержанием. А именно были подробно описаны следующие работы: информационный портал Math-Net.ru и портал научных видео ресурсов TIB AV-Portal. Были рассмотрены достоинства и недостатки данных порталов.
Настоящую работу предполагаем продолжить. На первом этапе предполагается снабдить документы видео коллекций метаданными, частично используя подход, предложенный в TIB AV-Portal.
1. Когаловский, М. Р. Семантическое аннотирование информационных ресурсов в научной электронной библиотеке средствами таксономий / М.Р. Когаловский, С.И. Паринов // Труды XIX Международной конференции «Аналитика и управление данными в областях с интенсивным использование данных» (DAMDID/RCDL’2017) - Москва, 2017 - С. 300-309.
2. Цифровая математическая библиотека Лобачевского [Электронный ресурс] / Режим доступа: https://lobachevskii-dml.ru/, свободный. - Загл. с экрана. - Яз. рус., англ.
3. Wikipedia «Annotation» - [сайт]. URL:
https://en.wikipedia.org/wiki/Annotation/
4. Когаловский, М.Р. Онтологическое аннотирование библиографических ссылок в научных публикациях и его использование в наукометрии / М.Р. Когаловский // Информационные ресурсы России - Москва, 2013. - С. 5-13.
5. Oren, E. What are Semantic Annotations? / E.Oren, K. Hinnerk Moller, S. Scerri, S. Handschuh, M. Sintek.- 2006. - P. 14.
6. Лукашевич, Н.В. Тезаурусы в задачах информационного поиска / Н.В. Лукашевич - М.: Изд-во МГУ, 2010. - С. 396.
7. Добров, Б.В. Онтологии и тезаурусы: учебное пособие / Б.В. Добров,
B. Д. Соловьев, В.В. Иванов, Н.В. Лукашевич. - Казань, Москва, 2006. -
C. 157.
8. Константинова, Н.С. Онтологии как система хранения знаний / Н.С. Константинова, О.А. Митрофанова // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы» - 2008. - С. 5-11.
9. Gruber T. R. A translation approach to portable ontologies / T. R. Gruber - Knowledge Acquisition. No. 5 (2). - 1993. - P. 199-220.
10. ScienceWISE: Scientific Web-based Interactive Semantic Enviroment
[Электронный ресурс] / Режим доступа: http://sciencewise.info/,
свободный. - Загл. с экрана. - Яз. англ.
11. Nevzorova, O. OntoMathPRO Ontology: A Linked Data Hub for Mathematics / O.A. Nevzorova, N.G. Zhiltsov, A.V. Kirillovich, E.K. Lipachev // P. Klinov, D. Mouromstev (eds.) Proceedings of the 5th International Conference on Knowledge Engineering and Semantic Web (KESW 2014). Communications in Computer and Information Science, vol. 468. - Springer, Cham, 2014. - P. 105-119
12. Елизаров, А. М. Семантическое аннотирование в системе управления физико-математическим контентом / А.М. Елизаров, Н.Г. Жильцов, А.В. Кириллович, Е.К. Липачёв // Научный сервис в сети Интернет: труды XVII Всероссийской научной конференции (21-26 сентября 2015 г., г. Новороссийск). — М.: ИПМ им. М.В.Келдыша, 2015. - С.98-103.
13. Елизаров, А.М. Онтологии математического знания и рекомендательная система для коллекций физико-математических документов / А. М. Елизаров, А.Б. Жижченко, Н. Г. Жильцов, А. В. Кириллович, Е. К. Липачёв // Доклады РАН. - 2016. - Т. 467. - № 4. - С. 392-395.
14. National Information Standards Organization (NISO): Understanding Metadata. NISO Press: Bethesda, MD (2004).
15. Когаловский, М.Р. Метаданные, их свойства, функции, классификация и
средства представления / М.Р. Когаловский // Труды 14 -й Всероссийской научной конференции «Электронные библиотеки: перспективные
методы и технологии, электронные коллекции» — RCDL-2012 -
Переславль-Залесский, 2012. - С. 12.
16. Елизаров, А.М. Терминологическое аннотирование и рекомендательный сервис в системе управления физико-математическим контентом / А.М. Елизаров, Н.Г. Жильцов, А.В. Кириллович, Е.К. Липачев // Труды XVII Международной конференции «Аналитика и управление данными в областях с интенсивным использование данных» - Обнинск, 2015. - С. 347-350.
17. Math-Net.Ru [Электронный ресурс] / Режим доступа:
http://www.mathnet.ru, свободный. - Загл. с экрана. - Яз. рус., англ.
18. Aberer, K. ScienceWISE: A Web-based interactive semantic platform for scientific collaboration / K. Aberer, A. Boyarsky, P. Cudr-Mauroux, G. Demartini, O. Ruchayskiy // 10th Int. Semantic Web Conference (ISWC 2011 - Demo) 2011.
19. arXiv.org e-Print archive [Электронный ресурс] / Режим доступа: http://arxiv.org/, свободный. - Загл. с экрана. - Яз. англ.
20. Соционет научно информационное пространство [Электронный ресурс] / Режим доступа: https://socionet.ru/, сводный. - Загл. с экрана. - Яз. рус.
21. CitEcCyr: [сайт]. URL: https://github.com/citeccyr/
22. PDF-STREAM: [сайт]. URL: https://github.com/citeccyr/pdf-stream-cli/
23. Testsuite for the Ontology for Media Resources 1.0: [сайт]. URL: https://www.w3 .org/2008/WebVideo/Annotations/drafts/ontology10/testsuite. html
24. DCMI: DCMI Metadata Terms: [сайт]. URL:
http://dublincore.org/documents/dcmi-terms/.
25. DCT Словарь типов DCMI. Рекомендация DCMI. (DCMI Type
Vocabulary. DCMI Recommendation, 11 July 2000): [сайт]. URL:
http://dublincore.org/documents/dcmi-type-vocabulary
26. Ontology Documentation: [сайт]. URL:
https://www.ebu.ch/metadata/ontologies/ebucore/index.html.
27. Web annotation working group: [сайт]. - URL:
https: //www. w3. org/annotation/.
28. Chebukov, D.E. Math-Net.Ru as a digital archive of the Russian mathematical knowledge from the XIX century to today / D.E. Chebukov, A.D. Izaak, O.G. Misyurina, Yu.A. Pupyrev, A.B. Zhizhchenko // Intelligent Computer Mathematics, Lecture Notes in Comput. Sci., 7961. - Springer, 2013. - P. 344-348.
29. Chebukov, D.E. Math-Net.Ru Video Library: creating a collection of scientific talks / D.E. Chebukov, A.D. Izaak, O.G. Misyurina, Yu.A. Pupyrev // Mathematical Software - ICMS 2016, 5th International Conference, Berlin, Germany, July 11-14, 2016, Proceedings, Lecture Notes in Comput. Sci., 9725. - Springer, 2016. - P. 447-450
30. TIB (The German National Library of Science and Technology)
[Электронный ресурс] - Режим доступа: https://www.tib.eu/en,
свободный. - Загл. с экрана. - Яз. англ., нем.
31. TIB AV-Portal [Электронный ресурс] - Режим доступа: https://av.tib.eu, свободный. - Загл. с экрана. - Яз. англ., нем.
32. Strobel, S., Metadata for Scientific Audiovisual Media: Current Practices and Perspectives of the TIB|AV-Portal. / S. Strobel, P. Marin-Arraiza. // In: Garoufallou, E., Hartley, R.J., Gaitanou, P. (eds.) MTSR 2015. CCIS. - Vol. 544. - Springer, 2015. - P. 159-170.
33. Neumann, J., Plank, P. (2013) ‘TIB 'ns Portal for audiovisualmedia: New ways of indexing and retrieval’ URL: http://library.ifla.org/92/1/124- neumann-en.pdf
34. AV-TIB Metadaten Schema. NTM-Metadata-Schema - Metadata-Schema for
non-textual Materials. [Электронный ресурс] - URL:
https://www.tib.eu/fileadmin/extern/knm/NTM-Metadata-
Schema do cumentation v 2.2.pdf
35. Год Лобачевского в КФУ - [сайт]. URL: https://lobach.kpfu.ru/