Разработка формальных языковых моделей на основе специализированных корпусов текстов
|
Введение 3
Глава 1. История развития языковых моделей 7
1.1 Языковые модели в языкознании 7
1.2 Обработка естественного языка до эпохи глубокого обучения 13
1.3 Обработка естественного языка в эпоху глубокого обучения 20
Глава 2. Векторное представление слов 25
2.1 Определение основных понятий 25
2.2 Счетные методы 29
2.3 Предсказывающие модели 33
2.3.1 Нейронные сети 33
2.3.2 Модель “непрерывного мешка слов” 35
2.3.3 Модель Skip-Gram 38
2.4 Контекстуализированные модели 41
Глава 3. Языковая модель BERT 45
3.1 Механизм само-внимания 46
3.2 "Многоголовочное" внимание 49
3.3 Архитектурное описание модели BERT 50
3.4 Представление входных данных 51
3.5 Параметры модели BERT 53
3.6 Процедура предобучения модели BERT 54
3.7 Обработка данных для предобучения 57
3.8 Из практики предобучения 58
3.8 Настройка языковой модели на конечные задачи 59
Глава 4. Адаптация предварительно обученных нейросетевых языковых
моделей к конечным задачам 63
Исследование 1. Языковой перенос для частеречной разметки корпуса
СКАТ 63
Исследование 2. Извлечение сущностей из медицинских назначений врачей 71
Исследование 3. Автоматическое распознавание парафраз 78
Заключение 80
Список использованной литературы 81
Глава 1. История развития языковых моделей 7
1.1 Языковые модели в языкознании 7
1.2 Обработка естественного языка до эпохи глубокого обучения 13
1.3 Обработка естественного языка в эпоху глубокого обучения 20
Глава 2. Векторное представление слов 25
2.1 Определение основных понятий 25
2.2 Счетные методы 29
2.3 Предсказывающие модели 33
2.3.1 Нейронные сети 33
2.3.2 Модель “непрерывного мешка слов” 35
2.3.3 Модель Skip-Gram 38
2.4 Контекстуализированные модели 41
Глава 3. Языковая модель BERT 45
3.1 Механизм само-внимания 46
3.2 "Многоголовочное" внимание 49
3.3 Архитектурное описание модели BERT 50
3.4 Представление входных данных 51
3.5 Параметры модели BERT 53
3.6 Процедура предобучения модели BERT 54
3.7 Обработка данных для предобучения 57
3.8 Из практики предобучения 58
3.8 Настройка языковой модели на конечные задачи 59
Глава 4. Адаптация предварительно обученных нейросетевых языковых
моделей к конечным задачам 63
Исследование 1. Языковой перенос для частеречной разметки корпуса
СКАТ 63
Исследование 2. Извлечение сущностей из медицинских назначений врачей 71
Исследование 3. Автоматическое распознавание парафраз 78
Заключение 80
Список использованной литературы 81
В настоящее время компьютерная лингвистика переживает смену научных парадигм, происходит переосмысление ключевых понятий этой области знаний, одним из которых является понятие языковой модели. Постепенно происходит переход от понимания модели языка как обобщенного формального представления языковой системы (Н.Н. Леонтьева (2006), И.А.Мельчук (1999), И.И.Ревзин (1962), Ю.А.Шрейдер (1982) и др.) к более узкой трактовке этого термина в случае отсылки к n-граммным языковым моделям, языковым моделям для машинного перевода, нейросетевым моделям распределенных векторов и т.д.
Создание нейросетевых языковых моделей является одной из важнейших процедур в современных реалиях обработки естественного языка. В течение минувшего десятилетия произошла стремительная эволюция предсказывающих моделей распределенных векторов, проявившаяся в смещении интереса разработчиков от статических нейросетевых моделей типа word2vec к контекстуализированным моделям, основанным на архитектурах типа Трансформер: BERT, ELMo, T5 и их модификациям, см. [Baroni et al., 2014; Le, Mikolov, 2014; Mikolov et al., 2013a,b; Devlin, 2019; Lample et al., 2019; McCann et al., 2017; Peters et al., 2018; Boyanowski et al., 2018; Arisoy et al., 2012; Baltesku et al., 2015]. Благодаря ним возможно решать целый спектр высокоуровневых задач, таких как распознавание речи и машинный перевод, что было сильно ограничено до их появления.
Несмотря на то, что для при обучении языковых моделей чаще всего используются общеязыковые корпусы текстов, в ряде работ было продемонстрировано, что использование специализированных корпусов повышает качество работы системы в конечных задачах [Lee et al., 2020; Gudkov et al., 2020].
Актуальность нашего исследования обусловлена необходимостью создания критериев отбора параметров для обучения и оценки нейросетевых моделей, создаваемых на основе ряда архитектур, применительно к конкретным практическим задачам. В этом отношении тезис о предметно-ориентированном языковом моделировании, выдвинутый и нашедший подтверждение в 1980-х-1990-х годах (А.С.Герд, В.В.Буторов, В.П.Захаров, И.В.Азарова и т.д. [Прикладное языкознание, 1995; Прикладная и компьютерная лингвистика, 2017]), находит свое развитие в современных проектах и подлежит уточнению в статусе рабочей гипотезы нашего исследования, которое сфокусировано на комбинировании общеязыковых лингвистических данных и данных из ресурсов (корпусов и баз данных) для частных предметных областей (медицина и биоинженерия, наука и техника, журналистика, юриспруденция и т.д.).
Новизна исследования заключается в разработке новой процедуры дообучения языковых моделей применительно к извлечению именованных сущностей на основе языковых моделей, включающего возможность присваивания нескольких классов одному токену, исследовании возможности языкового переноса на малоресурсные языки, а также в создании крупного корпуса для задач генерации парафраз.
Объектом исследования являются нейросетевые языковые модели, используемые для обработки естественного языка.
Предметом исследования являются методы настройки, оптимизации и адаптации языковых моделей для специализированных и малоресурсных языков.
Цель нашего исследования состоит в разработке методологии введения информации из узкоспециализированных корпусов текстов в предобученные общеязыковые модели.
Для достижения этой цели необходимо обеспечить решение следующих задач:
• исследовать и обобщить существующие методы и подходы к языковым моделям в контексте языкознания и истории обработки естественного языка;
• провести анализ векторного представления слов и изучить модель BERT, исследовать механизмы само-внимания и "многоголовочного" внимания;
• исследовать способности языковой модели к языковому переносу на малоресурсные языки на примере решения задачи частеречной разметки корпуса СКАТ;
• разработать и представить корпус размеченных медицинских назначений Drugrel, применив новый подход к извлечению именованных сущностей;
• исследовать возможности модели к автоматической агрегации больших наборов данных для последующих задач на основе создания корпуса для перефразирования.
Материалом исследования служат русскоязычные лингвистические данные (прежде всего, корпусы парафраз, тексты корпуса СКАТ, а также размеченные в ходе исследования медицинские данные). Важность проведения экспериментов на материале русского языка обусловлена востребованностью нейросетевых моделей в решении прикладных задач и одновременно недостаточной разработанностью вопроса роли дообучения общеязыковых моделей в отечественных разработках.
Теоретическая значимость данного исследования заключается в систематическом анализе современных методов обработки естественного языка, в определении особенностей и изучении механизмов работы новых нейросетевых архитектур типа Трансформер. Наблюдения, сделанные в ходе исследования, могут стать отправной точкой для разработки более совершенных моделей языка и приемов анализа языковых данных.
Практическим результатом исследования является формализованный набор данных и моделей, позволяющий использовать узкоспециализированные корпусы текстов для решения прикладных задач с помощью общих языковых моделей.
Практическая значимость исследования проявляется в возможности применения полученных данных в реальных задачах обработки естественного языка, включая перифразирование, извлечение именованных сущностей и частеречную разметку. Разработанный в ходе исследования корпус размеченных медицинских назначений Drugrel может быть использован в решении практических задач в области медицинской информатики и здравоохранения.
Результаты исследований были апробированы на международной конференции ассоциации по компьютерной лингвистике (Gudkov et al., 2020). Также опыт наших исследований представлен в статье, которая была принята в печать в журнале «Вестник Санкт-Петербургского университета. Язык и литература» (Gudkov et al., 2023).
Создание нейросетевых языковых моделей является одной из важнейших процедур в современных реалиях обработки естественного языка. В течение минувшего десятилетия произошла стремительная эволюция предсказывающих моделей распределенных векторов, проявившаяся в смещении интереса разработчиков от статических нейросетевых моделей типа word2vec к контекстуализированным моделям, основанным на архитектурах типа Трансформер: BERT, ELMo, T5 и их модификациям, см. [Baroni et al., 2014; Le, Mikolov, 2014; Mikolov et al., 2013a,b; Devlin, 2019; Lample et al., 2019; McCann et al., 2017; Peters et al., 2018; Boyanowski et al., 2018; Arisoy et al., 2012; Baltesku et al., 2015]. Благодаря ним возможно решать целый спектр высокоуровневых задач, таких как распознавание речи и машинный перевод, что было сильно ограничено до их появления.
Несмотря на то, что для при обучении языковых моделей чаще всего используются общеязыковые корпусы текстов, в ряде работ было продемонстрировано, что использование специализированных корпусов повышает качество работы системы в конечных задачах [Lee et al., 2020; Gudkov et al., 2020].
Актуальность нашего исследования обусловлена необходимостью создания критериев отбора параметров для обучения и оценки нейросетевых моделей, создаваемых на основе ряда архитектур, применительно к конкретным практическим задачам. В этом отношении тезис о предметно-ориентированном языковом моделировании, выдвинутый и нашедший подтверждение в 1980-х-1990-х годах (А.С.Герд, В.В.Буторов, В.П.Захаров, И.В.Азарова и т.д. [Прикладное языкознание, 1995; Прикладная и компьютерная лингвистика, 2017]), находит свое развитие в современных проектах и подлежит уточнению в статусе рабочей гипотезы нашего исследования, которое сфокусировано на комбинировании общеязыковых лингвистических данных и данных из ресурсов (корпусов и баз данных) для частных предметных областей (медицина и биоинженерия, наука и техника, журналистика, юриспруденция и т.д.).
Новизна исследования заключается в разработке новой процедуры дообучения языковых моделей применительно к извлечению именованных сущностей на основе языковых моделей, включающего возможность присваивания нескольких классов одному токену, исследовании возможности языкового переноса на малоресурсные языки, а также в создании крупного корпуса для задач генерации парафраз.
Объектом исследования являются нейросетевые языковые модели, используемые для обработки естественного языка.
Предметом исследования являются методы настройки, оптимизации и адаптации языковых моделей для специализированных и малоресурсных языков.
Цель нашего исследования состоит в разработке методологии введения информации из узкоспециализированных корпусов текстов в предобученные общеязыковые модели.
Для достижения этой цели необходимо обеспечить решение следующих задач:
• исследовать и обобщить существующие методы и подходы к языковым моделям в контексте языкознания и истории обработки естественного языка;
• провести анализ векторного представления слов и изучить модель BERT, исследовать механизмы само-внимания и "многоголовочного" внимания;
• исследовать способности языковой модели к языковому переносу на малоресурсные языки на примере решения задачи частеречной разметки корпуса СКАТ;
• разработать и представить корпус размеченных медицинских назначений Drugrel, применив новый подход к извлечению именованных сущностей;
• исследовать возможности модели к автоматической агрегации больших наборов данных для последующих задач на основе создания корпуса для перефразирования.
Материалом исследования служат русскоязычные лингвистические данные (прежде всего, корпусы парафраз, тексты корпуса СКАТ, а также размеченные в ходе исследования медицинские данные). Важность проведения экспериментов на материале русского языка обусловлена востребованностью нейросетевых моделей в решении прикладных задач и одновременно недостаточной разработанностью вопроса роли дообучения общеязыковых моделей в отечественных разработках.
Теоретическая значимость данного исследования заключается в систематическом анализе современных методов обработки естественного языка, в определении особенностей и изучении механизмов работы новых нейросетевых архитектур типа Трансформер. Наблюдения, сделанные в ходе исследования, могут стать отправной точкой для разработки более совершенных моделей языка и приемов анализа языковых данных.
Практическим результатом исследования является формализованный набор данных и моделей, позволяющий использовать узкоспециализированные корпусы текстов для решения прикладных задач с помощью общих языковых моделей.
Практическая значимость исследования проявляется в возможности применения полученных данных в реальных задачах обработки естественного языка, включая перифразирование, извлечение именованных сущностей и частеречную разметку. Разработанный в ходе исследования корпус размеченных медицинских назначений Drugrel может быть использован в решении практических задач в области медицинской информатики и здравоохранения.
Результаты исследований были апробированы на международной конференции ассоциации по компьютерной лингвистике (Gudkov et al., 2020). Также опыт наших исследований представлен в статье, которая была принята в печать в журнале «Вестник Санкт-Петербургского университета. Язык и литература» (Gudkov et al., 2023).
В ходе нашего исследования в области настройки, оптимизации и адаптации языковых моделей в разных областях, таких как частеречная разметка текстов на малоресурсном языке, извлечение именованных сущностей и перифразирование, мы внесли вклад в следующих аспектах.
Во-первых, были продемонстрированы способности языковой модели к языковому переносу на малоресурсные языки на примере решения задачи частеречной разметки корпуса СКАТ.
Во-вторых, был разработан и представлен корпус размеченных медицинских назначений Drugrel. Мы представили новый подход к извлечению именованных сущностей, способный присваивать несколько классов токену, что позволило использовать многоуровневую разметку. Получившаяся модель, основанная на архитектуре BERT, способна определять медицинские сущности точнее и эффективнее человека.
В-третьих, были продемонстрированы способности модели к автоматической агрегации больших наборов данных для последующих задач на основе создания корпуса для перифразирования.
Наша работа подтвердила, что глубокое обучение и использование специализированных корпусов данных открывают значительный потенциал в области обработки естественного языка. Мы уверены, что наши исследования послужат важной основой для дальнейшего развития этого направления и помогут в создании еще более мощных и эффективных систем обработки естественного языка.
Во-первых, были продемонстрированы способности языковой модели к языковому переносу на малоресурсные языки на примере решения задачи частеречной разметки корпуса СКАТ.
Во-вторых, был разработан и представлен корпус размеченных медицинских назначений Drugrel. Мы представили новый подход к извлечению именованных сущностей, способный присваивать несколько классов токену, что позволило использовать многоуровневую разметку. Получившаяся модель, основанная на архитектуре BERT, способна определять медицинские сущности точнее и эффективнее человека.
В-третьих, были продемонстрированы способности модели к автоматической агрегации больших наборов данных для последующих задач на основе создания корпуса для перифразирования.
Наша работа подтвердила, что глубокое обучение и использование специализированных корпусов данных открывают значительный потенциал в области обработки естественного языка. Мы уверены, что наши исследования послужат важной основой для дальнейшего развития этого направления и помогут в создании еще более мощных и эффективных систем обработки естественного языка.
Подобные работы
- ПРИКЛАДНЫЕ АСПЕКТЫ ИЗУЧЕНИЯ РУССКОЙ
ТЕРМИНОЛОГИИ НА МАТЕРИАЛЕ ТРУДОВ Л.В. КАНТОРОВИЧА
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 5730 р. Год сдачи: 2016 - Приемы речевого воздействия в жанре лекции (стилистические фигуры, способы диалогизации)
Диссертации (РГБ), русский язык. Язык работы: Русский. Цена: 4250 р. Год сдачи: 2018 - Автоматическое выявление и классификация языка вражды (на материале корпуса сообщений из чата видеоигры Dota 2)
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 5740 р. Год сдачи: 2025 - ОБУЧЕНИЕ СТУДЕНТОВ - ВОСТОЧНИКОВ АНГЛОЯЗЫЧНОМУ ДЕЛОВОМУ ДИСКУРСУ
Дипломные работы, ВКР, педагогика. Язык работы: Русский. Цена: 4365 р. Год сдачи: 2016 - Полевая организация дейктического пространства в английском и русском языках: лингвистический и методический аспекты
Дипломные работы, ВКР, педагогика. Язык работы: Русский. Цена: 4270 р. Год сдачи: 2018 - ПРИЕМЫ РЕЧЕВОГО ВОЗДЕЙСТВИЯ В ЖАНРЕ ЛЕКЦИИ (СТИЛИСТИЧЕСКИЕ ФИГУРЫ, СПОСОБЫ ДИАЛОГИЗАЦИИ)
Авторефераты (РГБ), русский язык. Язык работы: Русский. Цена: 250 р. Год сдачи: 2018



