Введение 4
Глава 1 Постановка задачи 6
Глава 2 Предварительные определения и сведения 7
2.1 Семантическое аннотирование: определения и методы 7
2.2 Онтологический подход к аннотированию 11
2.2.1 Основные определения 11
2.2.2 Примеры онтологий 13
2.3 Метаданные 17
2.3.1 Определение 17
2.3.2 Средства представления метаданных 18
Глава 3 Обзор работ по данной тематике 20
3.1 Терминологическое аннотирование 20
3.2 ScienceWise как пример веб-интерактивная семантическая платформа
для научного сотрудничества 22
3.3 Семантическое аннотирование публикаций в системе Соционет 23
Глава 4 Семантическое описание видео контента цифровых научных
коллекций 26
4.1 Онтологии описания медиаресурсов 26
4.2 Семантическое описания видео контента 26
4.2.1 Описание набора элементов метаданных Dublin Core и EBUCore. 26
4.2.2 Xml-язык для описания видеозаписей 28
4.2.3 Xml-схема 29
Глава 5 Описание видео ресурсов на научных порталах 31
5.1 Видео контент на портале Math-Net.ru 31
5.2 TIB AV-Portal 33
Глава 6 Коллекция видео лекций цифровой математической библиотеки 38
6.1 Состав видео коллекции 38
6.2 XML-язык описания видео контента 40
6.3 XML-схема для описания видео контента математических коллекций 41
6.4 Создание базы аннотаций 42
Глава 7 Заключение 44
Список литературы 45
Приложения 49
В настоящее время объемы данных в сети Интернет растут с огромной скоростью. Вследствие чего возникает ряд проблем при обмене или распространении людьми информацией, которая необходима для их обработки. Одной из проблем является то, что смысл информации не всегда корректно воспринимается человеком, который получает некоторые знания, так как у каждого человека уровень просвещенности в определенных темах разный. На рисунке 1 показано, какой путь проходят знания при движении
между отправителем и получателем.
Для решения данной проблемы необходимо, чтобы информация, описанная на естественном языке, и знания, которые содержатся в документе, были структурированы таким образом, что помимо образованного человека, компьютер так же мог «понимать» смысл документа, то есть контекст. Слово «понимать» предполагает, что компьютер должен уметь обрабатывать документ, используя правила, которые ему уже известны, при помощи определенного логического языка, а также должен обладать способностью вывода новых данных и сведений из документа.
Одним из методов решения данной проблемы является семантическое аннотирование цифровых документов на основе онтологии. Использование семантического аннотирования обогащает, а также облегчает восприятие информационных ресурсов пользователями [1].
Также была поставлена задача о нахождении методов для описания видео контента для внедрения их в цифровую математическую библиотеку Лобачевского [2]. В настоящее время существует множество видео ресурсов с научным содержанием: лекции, семинары, доклады. Но, так как о видеозаписи в текстовом формате описывается малое количество информации, то есть видеозапись часто не снабжена метаданными, их польза на данный момент намного принижена, чем могла бы быть.
В первой главе дана постановка задачи и цели данной работы.
Во второй главе представлены основные сведения и определения, которые связаны с темой настоящей работы.
В третьей главе даны обзоры работ по интересующей нас тематике, предложенные другими авторами.
В четвертой главе речь идет о семантическом описании видео контента цифровых научных коллекций.
В пятой главе проведен обзор о научных порталах, в которых введен видео контент. Рассмотрены их достоинства и недостатки.
В шестой главе речь идет о цифровой коллекции, которую мы выбрали для обработки. Предложены XML-файл и XML-схема для описания видео контента математических коллекций.
В седьмой главе сделан вывод о проделанной работе.
В ходе настоящей работы была обработана видео коллекция научно-популярных лекций, проведенных в Казанском федеральном университете в рамках года Лобачевского, который проходил в 2017 году. Данные лекции были подвержены ручному аннотированию, то есть каждая лекция была снабжена ключевыми словами, текстовыми аннотациями и метаданными.
Для выполнения поставленной задачи были изучены уже существующие работы, связанные с семантическим аннотированием цифровых ресурсов. Под цифровыми ресурсами подразумеваются данные текстового формата и аудиовизуальные ресурсы. Также были тщательно изучены существующие на данный момент онтологии. Для реализации моей задачи я отобрала основные онтологии, с помощью которых, был предложен XML-язык и реализовано семантическое аннотирование в виде XML-схемы видео контента математической коллекции.
В настоящей работе были рассмотрены и изучены примеры представления видео контента с научным содержанием. А именно были подробно описаны следующие работы: информационный портал Math-Net.ru и портал научных видео ресурсов TIB AV-Portal. Были рассмотрены достоинства и недостатки данных порталов.
Настоящую работу предполагаем продолжить. На первом этапе предполагается снабдить документы видео коллекций метаданными, частично используя подход, предложенный в TIB AV-Portal.