Тема: Модели, методы и алгоритмы построения семантической сети слов для задач обработки естественного языка
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Семантические сети в задачах обработки естественного языка 13
1.1. Обработка естественного языка 13
1.2. Семантические сети 15
1.3. Критерии качества семантических сетей 24
1.4. Обзор работ по теме диссертации 32
1.5. Выводы по главе 1 41
Глава 2. Методы построения семантической сети слов 43
2.1. Семантическая сеть слов 44
2.2. Метод построения синсетов 47
2.2.1. Построение графа синонимов 49
2.2.2. Вывод лексических значений слов 50
2.2.3. Построение графа значений слов 52
2.2.4. Кластеризация графа значений слов 53
2.2.5. Алгоритм построения синсетов Watset 54
2.3. Метод построения связей 57
2.3.1. Построение иерархических контекстов 59
2.3.2. Расширение иерархических контекстов 60
2.3.3. Подбор матрицы линейного преобразования 62
2.3.4. Связывание иерархических контекстов 64
2.3.5. Алгоритм построения связей Watlink 65
2.4. Выводы по главе 2 68
Глава 3. Комплекс программ построения семантической сети слов ... 70
3.1. Архитектура комплекса программ 70
3.1.1. Модуль построения синсетов 72
Стр.
3.1.2. Модуль подбора матрицы линейного преобразования .... 74
3.1.3. Модуль построения связей 76
3.2. Реализация комплекса программ 78
3.3. Представление знаний 82
3.4. Выводы по главе 3 84
Глава 4. Оценка эффективности разработанных методов 85
4.1. Оценка метода построения синсетов 88
4.2. Оценка метода построения связей 96
4.3. Оценка метода подбора матрицы линейного преобразования . . . .102
4.4. Оценка метода построения связей с расширением 105
4.5. Выводы по главе 4 109
Заключение 111
Литература 114
Приложение
📖 Введение
информации, создаваемой людьми и машинами на естественном языке. Аналитическое агентство IDC прогнозирует рост совокупного объема данных,
накопленных человечеством, до 163 зеттабайт к 2025 году. Основной частью
таких данных являются неструктурированные данные, такие как фотографии, видеозаписи, аудиозаписи, а также тексты на естественном языке.
Язык обладает многозначностью, которая проявляется на разных уровнях:
от уровня отдельных звуков в устной речи до уровня значения отдельных слов
и предложений в письменном тексте. Несмотря на то, что люди хорошо справляются с разрешением многозначности самостоятельно, проблема машинного
понимания естественного языка является сложной и требует специальных автоматических методов. Постоянное увеличение интенсивности потока входящей
текстовой информации делает все более важной задачу математического моделирования естественного языка, в частности –– русского языка.
Важнейшей проблемой является лексическая многозначность, требующая
от машины понимания контекста и предметной области, в которой употребляется каждое многозначное слово. Такие сведения представляются в семантических
сетях –– специальных высококачественных базах знаний, представляющих машиночитаемые сведения об окружающем мире в виде понятий и связей между ними.
Связи между понятиями задают семантическую иерархию, которая позволяет решать различные задачи машинного понимания естественного языка и является
критически важным элементом семантических сетей. В настоящее время, наиболее известной семантической сетью в области обработки естественного языка
является семантическая сеть WordNet для английского языка, связи в которой
формируются между синсетами –– множествами синонимов.
Семантические сети применяются при решении большого количества
важнейших прикладных задач обработки естественного языка. В системах5
разрешения лексической многозначности и системах машинного перевода, семантические сети представляют известные значения слов заданного языка. В
вопросно-ответных системах, таких как IBM Watson, семантические сети задают сведения об объектах предметной области и связях между ними. В системах
поиска сущностей, таких как Google Knowledge Graph, семантические сети
представляют атрибуты, понятные и людям, и машинам. Высококачественные
семантические сети широко используются в качестве золотого стандарта для
оценки эффективности систем автоматической обработки естественного языка.
Создание высококачественных баз знаний вручную является длительной
и ресурсоемкой задачей, поэтому исследователи уделяют большое внимание вопросу автоматического построения семантических ресурсов, таких как
семантические сети. Существующие методы автоматического построения семантических сетей используют высококачественные исходные данные, что
затрудняет их применение для автоматической обработки текста на языках,
представляющих другие языковые группы. Например, славянских и балтийских
языков. Основное внимание исследователей уделяется английскому языку, для
которого сегодня доступно большое количество высококачественных баз знаний
и других языковых ресурсов.
✅ Заключение
сети. Исследованы современные подходы к автоматическому построению семантических ресурсов. Предложена модель семантической сети слов, связывающая
лексические значения слов при помощи семантических связей с разрешенной
многозначностью. На ее основе разработаны методы и алгоритмы автоматического построения понятий и автоматического построения и расширения
семантичеких связей. Корректность предложенных методов подтверждается
результами экспериментов. Разработанные модели, методы и алгоритмы реализованы в виде комплекса программ, который функционирует на многоядерных
и многопроцессорных вычислительных системах для выполнения ресурсоемких
операций.
Основные результаты, полученные в ходе выполнения диссертационного
исследования являются новыми и не покрываются ранее опубликованными научными работами других авторов, обзор которых был дан в разделе 1.4. Следует
отметить основные отличия.
Существующие методы пострения синсетов на основе нечеткой кластеризации графа, такие как MaxMax [55], CPM [80] и ECO [49], не осуществляют
процедуру вывода значений слов в явном виде и ориентированы на кластеризацию графов совместной встречаемости слов. Методы вывода значений слов [26,
36, 83], в свою очередь, не производят разрешения многозначности полученных
значений слов и не используют эти значения слов для построения понятий. Существующий метод разрешения многозначности в контекстах [38] не предполагает
построения графа значений слов. Описанный в разделе 2.2 метод обнаружения
понятий отличается тем, что использует существующий метод вывода значений слов, затем строит граф значений слов с использованием значений слов с
разрешенной многозначностью, после чего производит жесткую кластеризацию112
полученного графа значений слов при помощи хорошо известных методов жесткой кластеризации графа [26, 35].
Существующие методы построения связей, такие как онтологизация [87],
ECO [49] и BabelNet [76] предполагают построение связей между синсетами на
основе заранее подготовленной семантической иерархии высокого качества. В
обоих случаях используется тезаурус английского языка WordNet [40]. Описанный в разделе 2.3 метод построения связей не требует такого ресурса для решения
задачи. Методы извлечения связей, в первую очередь, шаблоны Херст [53,81] и их
вариации для толковых словарей [5] не указывают конкретные значения слов, что
приводит к возникновению лексической многозначности. Таким же ограничением обладает Викисловарь и другие общедоступные ресурсы [8], построенные при
помощи краудсорсинга. Предложенный в данной работе метод построения связей
предназначен позволяет указать конкретные значения связанных слов. Кроме того, подход к расширению иерархических контекстов в данном методе позволяет
добавить дополнительные связи, подходящие по смыслу.



