🔍 Поиск готовых работ

🔍 Поиск работ

ОНТОЛОГИЧЕСКИЕ МОДЕЛИ И ПЕРЕВОД (НА ПРИМЕРЕ ПРЕДМЕТНОЙ ОБЛАСТИ «ТЕРРОРИЗМ»)

Работа №197899

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы165
Год сдачи2018
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
21
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1 Онтология как модель представления знаний 10
1.1 Обзор трактовок понятия «онтология» 10
1.2 Структура онтологии 13
1.3 Классификация онтологий и ресурсов онтологического типа 16
1.3.1 Классификация онтологий по степени формальности 17
1.3.2 Классификации онтологий по цели создания и содержанию 19
1.3.3 Другие классификации онтологий 23
1.4 Лингвистические онтологии 24
1.4.1 Трактовки понятия «лингвистическая онтология» 24
1.4.2 Лингвистическая онтология как онтология для автоматической
обработки текста 25
1.4.3 Лингвистическая онтология как wordnet 27
1.5 Многоязычные онтологии 29
1.6 Разработка онтологий 31
1.6.1 Основные аспекты разработки онтологий 31
1.6.2 Определение множества концептов 33
1.6.3 Определение множества отношений 36
1.6.4 Установление связей между концептами 39
1.7 Применения онтологий 40
1.7.1 Основные области применения онтологий 40
1.7.2 Онтологии в машинном переводе 42
1.7.3 Онтологии как средство разрешения многозначности 44
1.7.4 Онтологии для синонимических преобразований 48
Выводы по главе 1 50
Глава 2 Онтологическая модель предметной области «терроризм»: разработка и применение 53
2.1 Значение исследования 53
2.2 Цель и задачи исследования 54
2.3 Обзор онтологических ресурсов предметной области «терроризм» ... 55
2.4 Методологическая основа исследования 61
2.5 Онтологический ресурс предметной области «терроризм» 65
2.5.1 Методика разработки онтологического ресурса 65
2.5.2 Определение множества концептов 66
2.5.3 Определение множества свойств 77
2.5.4 Расширение онтологии 82
2.5.5 Соотнесение лексических единиц с концептами онтологии 86
2.6 Применение онтологического ресурса 88
Выводы по главе 2 91
Заключение 92
Библиографический список 96
Словари, справочники и энциклопедии 106
Приложение 1 108
Приложение 2 112
Приложение 3 144

В прикладной лингвистике интерес к изучению онтологий существует на протяжении трех десятилетий. Онтологические модели обеспечивают понимание естественного языка компьютерными системами, в результате чего такие модели находят применение в большом количестве практических задач, к числу которых относится семантическое аннотирование, извлечение информации из текстов, вопросно-ответные системы, машинный перевод, разрешение лексической многозначности и т. д.
Актуальность исследования обусловлена несколькими факторами.
Во-первых, онтологии в современном мире, как уже отмечено, используются в ряде задач, связанных с обработкой естественного языка.
Во-вторых, терроризм является острой проблемой современности. Одна из задач контртеррористической деятельности - своевременный анализ текстовых потоков на предмет террористического содержания, которое может быть обнаружено при помощи онтологий терроризма.
В-третьих, онтологии, как не только машиночитаемые, но и человекочитаемые ресурсы, могут быть использованы переводчиками для более качественного перевода связанных с террористической деятельностью новостей.
Перечисленные факторы обусловили выбор темы настоящей выпускной квалификационной работы: «Онтологические модели и перевод (на примере предметной области “терроризм”)».
Объектом исследования является предметная область «терроризм».
Предметом исследования являются понятия (концепты) предметной области «терроризм», их свойства и связи (отношения) между ними.
Цель настоящего исследования заключается в том, чтобы построить многоязычную лингвистическую онтологию предметной области «терроризм» - такую онтологическую модель, которая может быть беспрепятственно соотнесена с разнообразными языковыми выражениями на трех языках (русском, английском и французском) и использована в различных задачах обработки естественного языка, в том числе в задачах перевода.
Для достижения поставленной цели исследования были определены следующие задачи:
1) рассмотреть теоретические аспекты, связанные с разработкой онтологий: определить понятие онтологии, проанализировать различные классификации онтологических ресурсов, изучить существующие методики их разработки, в частности методики разработки онтологий предметной области;
2) рассмотреть возможности применения онтологий в переводе;
3) проанализировать существующие на данный момент онтологические модели предметной области «терроризм»;
4) предложить собственную методику разработки многоязычных онтологий предметной области на основе известных методик;
5) разработать онтологическую модель предметной области «терроризм».
Использованные в работе методы научного исследования обусловлены поставленными задачами. В частности, были применены следующие методы:
• сравнительно-сопоставительный;
• описательный с использованием приемов наблюдения и обобщения проанализированного материала;
• метод сплошной выборки;
• методы статистического, дистрибутивного, контекстуального, компонентного анализа, метод оппозиций, анализа словарных дефиниций и сопоставительный метод для изучения лексического и семантического состава собранных корпусов текстов.
Теоретико-методологической базой исследования являются:
• работы о теоретических аспектах разработки онтологий отечественных (О. А. Митрофанова, И. М. Богуславский, Н. В. Лукашевич и др.) и зарубежных (Т. Грубер, С. Ниренбург, В. Раскин, Д. Макгиннес, Н. Ной и др.) авторов;
• работы, посвященные опыту разработки онтологий (А. Морено), в том числе онтологий терроризма (А. Маннес, М. Тернер, С. Л. Мишланова и др.).
В целях частичной автоматизации исследования в работе применялся разработанный С. О. Шереметьевой инструмент для извлечения ключевых слов LanA-Key, принцип работы которого описан в [76].
Кроме того, поскольку разрабатываемая онтология предметной области «терроризм» основывается на верхних уровнях онтологии MikroKosmos, предназначенной для машинного перевода, в работе использованы данные из ряда источников, посвященных этой онтологии [55-57, 66, 75].
В качестве материала исследования использованы псевдопараллельные корпуса, содержащие актуальные информационно-новостные тексты предметной области «терроризм» на русском, английском и французском языках. Корпуса собраны методом сплошной выборки из таких интернет-источников, как «ТВ Центр», «РИА Новости», «НТВ», «Вести», «L'Obs», «Middle East Eye», «Ouest-France», «Le Monde», «Le Figaro», «Fox News», «UN News», «Reuters» и др. Объем каждого корпуса составляет около 500 тыс. словоупотреблений. Кроме того, в работе использованы лексикографические источники - одноязычные толковые словари на русском, английском и французском языках.
Научная новизна исследования состоит в том, что в нем впервые разработана онтологическая модель предметной области «терроризм» для описания значений лексических единиц русского, английского и французского языков, а также предложена методика разработки независимых от конкретного языка многоязычных лингвистических онтологий предметной области, основанная на количественных и интуитивных методах, а также семантическом анализе.
Теоретическая значимость исследования обусловлена недостаточной освещенностью проблемы разработки онтологий, в том числе многоязычных, в русскоязычной литературе.
Практическая ценность исследования состоит в том, что предложенную в нем методику разработки многоязычных лингвистических онтологий на основе анализа текстовых корпусов можно использовать для построения моделей других предметных областей, а также для других языков при условии внесения соответствующих изменений в те этапы разработки, которые зависят от конкретного языка. Кроме того, разработанная онтология, оформленная в виде браузерного приложения, может быть использована при подготовке переводчиков, а также в практической деятельности, связанной с переводом. Собранные данные могут быть также использованы для создания инструмента машинного перевода, ориентированного на предметную область «терроризм».
Апробация работы была проведена на третьей международной конференции «Digital Transformation and Global Society». По материалам работы опубликованы две статьи:
1. Шереметьева, С. О. К вопросу о разработке онтологических ресурсов предметной области «терроризм» / С. О. Шереметьева, А. Ю. Зиновьева // Вестник ЮУрГУ. Серия «Лингвистика». - 2017. - Т. 14, № 4. - С. 48-54.
2. Sheremetyeva, S. On Modelling Domain Ontology Knowledge for Processing Multilingual Texts of Terroristic Content / S. Sheremetyeva, A. Zinovyeva // Proceedings of the Third International Conference Digital Transformation and Global Society. - Springer, 2018 (в печати).
Объем выпускной квалификационной работы составляет 104 страницы (за исключением приложений). Работа имеет следующую структуру.
Во введении дается обоснование актуальности и выбора темы исследования, определяются объект, предмет, цель, задачи и методы исследования, а также научная новизна, теоретическая значимость и практическая ценность.
Основная часть исследования представлена двумя главами и посвящена последовательному решению поставленных задач.
Первая глава состоит из семи параграфов и посвящена анализу теоретических аспектов, связанных с изучением и разработкой онтологий. В первом параграфе рассматриваются различные определения понятия «онтология», используемые в инженерии знаний и прикладной лингвистике. Второй параграф посвящен структуре онтологий. В третьем параграфе отражены существующие классификации онтологических ресурсов по различным основаниям. Четвертый и пятый параграфы освещают различные трактовки понятий «лингвистическая онтология» и «многоязычная онтология» соответственно. В шестом параграфе описаны методы разработки онтологий, а также проблемы, с которыми сталкиваются разработчики. Седьмой параграф посвящен использованию онтологий в практических задачах, в том числе в машинном переводе.
Во второй главе приводится методика практического исследования, описывается его ход и результаты. В частности, представлен сравнительносопоставительный анализ существующих онтологий терроризма, на опыт создания которых опирался автор работы. Кроме того, описана методика разработки многоязычной лингвистической онтологии предметной области на основе анализа текстовых корпусов на примере предметной области «терроризм». Приведены примеры использования онтологии для решения практических задач.
В заключении приводятся основные итоги проведенного исследования, формулируются общие выводы, намечаются перспективы дальнейшего исследования в данной области.
Библиографический список представлен 89 источниками, среди которых 22 источника на русском языке, 61 источник на английском языке, а также шесть толковых словарей - русского, английского и французского языков.
В качестве приложений приведены следующие материалы: иерархическая структура концептов (приложение 1), фреймы концептов онтологии, выделенных на основе анализа текстовых корпусов (приложение 2), а также списки лексических единиц на английском, русском и французском языке, соотнесенных с указанными концептами (приложение 3).

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Онтологические модели, или онтологии, играют важную роль в инженерии знаний и, в частности, в прикладной лингвистике. Они обеспечивают своего рода понимание компьютерными системами текста на естественном языке, ввиду чего используются в ряде задач, связанных с автоматической обработкой текста. Онтологии могут найти применение в том числе в контртеррористической деятельности, которая является актуальной задачей современного мира. На данный момент существует ряд исследований, посвященных созданию онтологий терроризма, однако большинство из них ориентированы на обработку английского языка.
В связи с этим возникла идея разработать онтологическую модель предметной области «терроризм», которая может описывать значения лексических единиц английского, русского и французского языков, являясь при этом максимально независимой от конкретного языка, чтобы при необходимости с ней могли быть соотнесены лексические единицы других языков. Подобный ресурс может также найти применение в переводе, поскольку предоставляет эквиваленты сразу на трех языках и, кроме того, является справочным ресурсом, содержащим информацию о предметной области. Таким образом, была поставлена цель исследования - разработать независимую от языка многоязычную лингвистическую онтологию предметной области «терроризм».
Для достижения цели исследования было поставлено несколько задач, первой из которых стало раскрытие теоретического аспекта онтологии как модели представления знаний. Онтология - это независимая от естественного языка структура, описывающая предметы и явления реальной действительности в их восприятии человеком, создаваемая для решения определенной задачи и представляемая в виде графа, в узлах которого расположены концепты, связанные дугами-отношениями. Существует множество классификаций онтологий, однако основными типами считаются онтология верхнего уровня и онтология предметной области. Разработанная в рамках настоящего исследования онтология является онтологией предметной области, концепты которой соотносятся с верхними уровнями онтологии MikroKosmos. Кроме того, разработанная онтология является лингвистической и многоязычной, т. е. предназначенной для обработки нескольких естественных языков.
Особое внимание в работе уделено методам разработки онтологий и связанным трудностям. Рассмотрены ручные и автоматизированные методы получения понятийных знаний о предметной области, а также их источники.
Подробно рассмотрены области применения онтологий, в том числе в лингвистике: семантическое аннотирование, машинный перевод, автоматическое разрешение лексической многозначности на основе контекста, синонимические преобразования, создание глоссариев и тезаурусов, использование онтологий людьми-переводчиками в качестве справочных ресурсов.
Следующей задачей стала разработка методики построения независимой от языка многоязычной лингвистической онтологии предметной области. Методика была предложена на основе изученных ранее методов разработки онтологий и основывается на анализе псевдопараллельных текстовых корпусов. В качестве источника понятийных знаний были выбраны псевдо- параллельные текстовые корпуса, поскольку именно таким образом, на наш взгляд, может быть получено наиболее независимое от языка представление знаний и в то же время не возникнет проблем с соотнесением лексических единиц и концептов предметной области.
Методика является автоматизированной: в частности, на этапе выделения именных и глагольных групп из корпусов для последующего извлечения из них понятийных знаний используется инструмент автоматического извлечения лексических единиц LanA-Key. Остальные шаги, в число которых входит группировка лексических единиц в семантические поля, формирование на их основе концептов, определение отношений и атрибутов посредством компонентного анализа и метода оппозиций, а также расширение онтологии при помощи текстовых шаблонов, выполняются вручную.
С помощью описанной методики была разработана онтология предметной области «терроризм». В качестве материала исследования были использованы псевдопараллельные корпуса, содержащие информационноновостные тексты о террористической деятельности на английском, русском и французском языках. Объем каждого корпуса составил около 500 тыс. словоупотреблений. Разработанная онтология содержит 93 концепта, 20 отношений и 6 атрибутов. Количество соотнесенных с концептами онтологии лексических единиц составляет 290, 286 и 261 для английского, русского и французского языков соответственно. Онтология совместно с лексиконами образует онтологический ресурс, реализованный в виде браузерного приложения.
Практическая ценность исследования заключается, во-первых, в возможности использования предложенной методики для разработки онтологических моделей других предметных областей, а также на основе других языков (с созданием специфических для этих языков текстовых шаблонов). Во-вторых, разработанный онтологический ресурс может быть использован переводчиками для получения информации о предметной области, поиска эквивалентов между тремя языками, подбора синонимичных выражений в рамках одного языка или выбора наиболее частотной лексической единицы. Кроме того, ресурс может применяться в учебном процессе для тренировки перевода текстов о терроризме. В-третьих, собранные данные могут быть использованы для разработки инструмента автоматической обработки текста.
Поскольку на данный момент онтология содержит только базовые концепты предметной области, в будущем планируется расширить ее, а также добавить экземпляры. Кроме того, планируется разработать правила формального соотнесения лексических единиц с онтологией.


1. Апресян, Ю. Д. Идеи и методы современной структурной лингвистики: краткий очерк / Ю. Д. Апресян. - М.: Просвещение, 1966. - 304 с.
2. Апресян, Ю. Д. Избранные труды. Т. I. Лексическая семантика. Синонимические средства языка / Ю. Д. Апресян. - 2-е изд., испр. и доп. - М.: Школа «Языки русской культуры», 1995. - 364 с.
3. Богуславский, И. М. Онтология для поддержки задач извлечения смысла из текста на естественном языке / И. М. Богуславский, В. Г. Диконов, С. П. Тимошенко // Информационные технологии и системы. - 2012. - С. 152-161.
4. Власов, Д. Ю. Автоматизация извлечения отношений между понятиями из текстов естественного языка / Д. Ю. Власов, Д. Е. Пальчунов, П. А. Степанов // Вестник НГУ. Серия: Информационные технологии. - № 8 (3). - 2010. - С. 23-33.
5. ГОСТ 7.24-2007. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению: межгосударственный стандарт (Система стандартов по информации, библиотечному и издательскому делу) / Межгосударственный совет по стандартизации, метрологии и сертификации - М.: Стандартинформ, 2007. - 11 с.
6. Добров, Б. В. Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного поиска / Б. В. Добров, Н. В. Лукашевич // Ученые записки Казанского университета. Серия Физико-математические науки. - 2007. - № 2 (149). - С. 49-70.
7. Жданова, С. Ю. Концепт терроризм в дискурсе международных новостей интернет-ресурсов / С. Ю. Жданова, С. Л. Мишланова, В. Б. Поляков // Вектор науки Тольяттинского государственного университета. Серия: Педагогика, Психология. - 2012. - № 4 (11). - С. 100-103.
8. Зализняк, А. А. Феномен многозначности и способы его описания / А. А. Зализняк // Вопросы языкознания. - М.: Наука, 2004. - № 2. - С. 20-45.
9. Инструмент для извлечения структурированных данных из текста То- мита-парсер [Электронный ресурс]. - URL: https://tech.yandex.ru/tomita, свободный. - Загл. с экрана (дата обращения: 06.08.2016).
10. Коваль, С. А. Безэкземплярные и экземплярные онтологии [Электронный ресурс] / С. А. Коваль. - 2007. - URL: http://skowal.ru/old/research/
ontology2007.htm, свободный. - Загл. с экрана (дата обращения: 3.06.2017).
11. Лукашевич, Н. В. Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа: автореф. дис. ... д-ра технич. наук / Наталья Валентиновна Лукашевич. - ВИНИТИ РАН. - Москва, 2014. - 32 с.
12. Лукашевич, Н. В. Тезаурусы в задачах информационного поиска / Н. В. Лукашевич. - М.: МГУ, 2011. - 495 с.
13. Мельчук, И. А. Опыт теории лингвистических моделей «Смысл- Текст» / И. А. Мельчук. - М.: Школа «Языки русской культуры», 1999. - 346 с.
14. Митрофанова, О. А. Онтологии как системы хранения знаний [Электронный ресурс] / О. А. Митрофанова, Н. С. Константинова. - 2015. - URL: http://ict.edu.ru/ft/005706/68352e2-st08.pdf, свободный. - Загл. с экрана (дата обращения: 31.10.2016).
15. Мишланова, С. Л. Особенности репрезентации концепта терроризм в англоязычном дискурсе новостей Интернет-ресурсов / С. Л. Мишланова, Е. А. Куприянычева // Филологические заметки. - 2012. - С. 265-276....89


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ