Содержание 2
Введение 4
1. Основные технологии связывания открытых лингвистических
данных 6
1.1 Semantic Web 6
1.2 Открытые связанные лингвистические данные (LLOD) 7
1.2.1 Связанные данные 9
1.2 Архитектура Semantic Web 11
1.2.1 Unicode и Унифицированный индикатор ресурса URI 12
1.2.2 Расширяемый язык разметки 13
1.2.3 Структура описания ресурсов RDF 13
1.2.3 Схема структуры описания ресурсов 14
1.2.5 Язык веб онтологии OWL 16
1.2.6 SPARQL 17
1.2.7 Верхний слой «Пользовательский интерфейс и приложение». 17
1.3 Используемые онтологии 18
1.3.1. Структура ядра онтологии Lemon 19
1.3.2. Возможности Lemon 20
2. Разработка RDF связанного лингвистического ресурса 21
2.1 Определение состава нового лингвистического ресурса 23
2.1.1 Тезаурус Рутез 23
2.1.2 Грамматический словарь 24
2.2 Разработка архитектуры многоуровневого лингвистического ресурса.. 24
2.3 Разработка алгоритмов импорта данных из исходных тезаурусов и
словарей 25
2.4 Представление данных в виде модели Linguistic Linked Open Data 29
2.5 Разработка алгоритмов связывания данных на различных уровнях
представления 34
2.6 Разработка алгоритмов конвертации полученных связанных данных в
ресурс на основе моделей онтологий Lemon, Lexlnfo и SKOS 36
3. RDF набор многоуровневого лингвистического ресурса 39
4. Числовые оценки 41
5. Варианты использования 43
Заключение 44
Список использованных источников
Листинг
Первые опыты публикации таких ресурсов в виде открытых связанных данных предпринимались с момента появления технологий Semantic Web в начале 2000-х. Только за последние пять лет появился большой интерес среди разработчиков и исследователей в области обработки естественного языка к созданию собственных ресурсов и приложений с использованием высококачественных словарей, тезаурусов, корпусов и др. Одна из главных проблем заключается в том, что опубликованные открытые данные хранятся в разных форматах, что затрудняет эффективное использование этих данных, поэтому актуальна разработка связанного лингвистического ресурса, который был бы спроектирован на общепринятых стандартах.
Актуальность работы определяется еще и тем, что в настоящее время лингвистические ресурсы для распространенных европейских и восточных языков уже опубликованы, но для русского языка и для языков народов России практически не представлены.
Основная цель данной работы - разработать связанный лингвистический многоуровневый ресурс на основе русскоязычного тезауруса и словарей, на основе существующих и специально разработанных семантических моделей и онтологий.
Для достижения поставленной цели на необходимо решить следующие задачи:
• Определить состав нового лингвистического ресурса.
• Разработать представление многоуровневой архитектуры ресурса.
• Разработать алгоритмы импорта данных из исходных тезаурусов и словарей.
Представить данные в виде модели Linguistic Linked Open Data (LLOD).
Разработать алгоритмы связывания данных на различных уровнях представления (связи лексического, морфологического и семантического уровней)
Разработать алгоритмы конвертации полученных связанных данных в ресурс на основе моделей онтологий Lemon, Lexlnfo и SKOS. Опубликовать новый лингвистический ресурс в облаке LLOD.
В выпускной квалификационной работ впервые для русского языка на основе тезауруса Рутез и Грамматического словаря разработан связанный многоуровневый лингвистический ресурс и консольное приложение, реализующий модель данных LLOD на основе онтологий Lemon, SKOS, Lexlnfo.
В ближайшее время будет опубликован полученный ресурс в домене LLOD по ссылке http://lod.ruthes.org.
Дальнейшие развитие построенного ресурса будет направлено на связывание полученного ресурса с ресурсами других языков таких, как татарский, а также ряда европейских языков. Дополнительно планируется расширение функционала приложения и пополнение базы знаний ресурса данными из других источников.