СИСТЕМА РАЗМЕТКИ И МЕТАРАЗМЕТКИ В КОРПУСЕ РУССКОЙ УСТНОЙ РЕЧИ ТЮРКСКО-РУССКИХ БИЛИНГВОВ (RuTuBiC)
|
Введение 3
Глава 1. RuTuBiC: лингвистически размеченный корпус текстов - определение понятий....9
1.1. Развитие методологии корпусной лингвистики 9
1.2. Лингвистически размеченный корпус текстов - определение понятия 12
1.3 Типология лингвистически размеченных корпусов 14
1.4 Корпус RuTuBiC: типологические характеристики 22
Выводы по 1 главе 27
Глава 2. Многоуровневое аннотирование бимодального корпуса 29
2.1. Автоматическая морфологическая разметка 29
2.2. Аннотирование мультимодального файла 37
2.3. Мультимодальное аннотирование корпуса RuTuBiC 45
Выводы по 2 главе 53
Заключение 54
ЛИТЕРАТУРА 55
ПРИЛОЖЕНИЕ
Глава 1. RuTuBiC: лингвистически размеченный корпус текстов - определение понятий....9
1.1. Развитие методологии корпусной лингвистики 9
1.2. Лингвистически размеченный корпус текстов - определение понятия 12
1.3 Типология лингвистически размеченных корпусов 14
1.4 Корпус RuTuBiC: типологические характеристики 22
Выводы по 1 главе 27
Глава 2. Многоуровневое аннотирование бимодального корпуса 29
2.1. Автоматическая морфологическая разметка 29
2.2. Аннотирование мультимодального файла 37
2.3. Мультимодальное аннотирование корпуса RuTuBiC 45
Выводы по 2 главе 53
Заключение 54
ЛИТЕРАТУРА 55
ПРИЛОЖЕНИЕ
Во второй половине двадцатого века в отечественной и зарубежной лингвистике выделилось направление, цель которого - изучение языковых закономерностей на материале структурированных собраний текстов. Основной отличительный признак таких собраний текстов - возможность осуществления поиска по заданным параметрам для дальнейшего анализа полученных результатов. Такое собрание текстов, объединённых по какому- либо признаку называют текстовым корпусом. Раздел лингвистики, использующий текстовые корпуса для анализа данных с помощью корпусных методов, называется корпусная лингвистика. Являясь исходным материалом для корпусной лингвистики, корпус текстов в то же время является её основным продуктом. На данном этапе развития технологий сбора, обработки и хранения данных наибольшей ценностью обладают корпуса текстов, снабжённых лингвистической и метаинформацией, позволяющей в дальнейшем осуществлять различные виды анализа в соответствии с исследовательскими задачами, которые ставят перед собой создатели корпуса. В данной работе представлена попытка создания системы лингвистической разметки и метаразметки в корпусе русской устной речи тюркско-русских билингвов RuTuBiC.
Актуальность данной работы определяется потребностью в создании корпуса, содержащего примеры реального языкового употребления и предоставляющего возможность для фиксации и анализа типов речевых отклонений на всех уровнях языковой системы в соотнесении с типами языкового контактирования. Необходимость изучения языкового контактирования и создания подобных корпусов обусловлена, прежде всего, усиливающимися тенденциями глобализации на основе русского языка, являющегося единственным официальным языком на территории Российской Федерации и определяющего социальную реальность сосуществования представителей разных народов в многонациональном государстве.
Существует ряд российских и зарубежных проектов, посвящённых изучению влияния материнских языков населения разных регионов на устную и письменную речь билингвов, использующих русских язык. Следует отметить, что респонденты, чья речь была использована в качестве материала корпуса RuTuBiC, являются именно носителями естественного билингвизма, однако так же существуют и корпуса, созданные для изучения учебного билингвизма. Среди российских проектов особенный интерес представляют такие корпуса как корпус контактно-обусловленной русской речи носителей Севера Сибири и Дальнего Востока, материалы которого расшифрованы и размечены П.С. Плешак, Н.М. Стойновой и И.А. Хомченковой и Русский учебный корпус1 — проект НИУ ВШЭ, осуществляемый Лабораторией по корпусным исследованиям под руководством Е.В. Рахилиной. Целью создания обоих корпусов было изучение разных аспектов устной и письменной речи носителей естественного и учебного билингвизма. Кроме того, интерес представляют и корпуса, содержащие русскую устную речь монолингвов, прежде всего корпуса, созданные в рамках проекта «Рассказы о сновидениях и другие корпуса звучащей речи» . Каждый из перечисленных корпусов имеет мотивированную систему разметки и описание технических аспектов создания корпуса, представленные в публикациях .
Корпусная лингвистика является разделом компьютерной лингвистики, поэтому работа с корпусами текстов тесно связана с использованием компьютерных технологий и программного обеспечения, дающего исследователям возможность быстрого получения и обработки информации. Развитие и совершенствование технологий обработки и хранения записей аудиофайлов также сделало возможным создание корпусов звучащей речи. Несомненным преимуществом звукозаписывающих технологий - возможность повторного воспроизведения аудиофрагмента, что при расшифровке позволяет отразить все особенности употребления различных единиц языка. В зависимости от цели создания корпуса звучащей речи могут содержать как короткие фрагменты текстов, записанные в лабораторных условиях, так и записи неподготовленной устной речи в ситуациях реального общения. Записи лекций или других публичных выступлений в таких случаях не являются достаточно репрезентативным материалом, так как в них представлена «озвученная» норма письменного литературного языка.
Корпус русской устной речи тюркско-русских билингвов RuTuBiC создаётся в рамках проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур» , цель которого — выявление закономерностей исторического развития и современного состояния языков и культур Южной Сибири в аспекте их взаимодействия на основании современных языковых, антропологических и психолингвистических данных с применением корпусных и психолингвистических методов исследования. Основной отличительной особенностью корпуса является бимодальность — сочетание двух типов внешних стимулов, воспринимаемых человеком, которому адресован текст. Русский язык, являясь вторым, не материнским, активно используется авторами текстов корпуса во многих сферах, прежде всего в институциональной коммуникации1. Корпус содержит три подкорпуса: шорско-русский, татарско-русский, хакасско-русский.
Основной материал корпуса — полевые записи устной речи, собранные в течение трёх лет г. Шерегеш и Таштагол, пос. Большая Суета Кемеровской области, г. Абакан, с. Аскиз, с. Чиланы, д. Юрт-Оры и Акбалык. В настоящее время корпус включает в себя более пятиеот часов звучания. В записи интервью участвовали респонденты трёх возрастных групп.
Объектом исследования в данной работе является корпус русской устной речи тюркско-русских билингвов Южной Сибири.
Предмет исследования - система лингвистической разметки и метаразметки мультимодального корпуса.
Цель данной работы - описание типологически релевантных признаков создаваемого корпуса и инструментов, используемых в процессе его создания.
Для достижения цели были поставлены следующие задачи:
1. дать общую характеристику корпуса;
2. описать типы разметки, применяемые к материалам корпуса;
3. выбрать и апробировать подходящие методы автоматической обработки текстовых и аудиоматериалов.
В работе используется следующее программное обеспечение для работы с материалами корпуса: автоматический морфологический анализатор Mystem и программа для создания и аннотирования мультимодальных файлов ELAN .
Теоретической основой исследования являются работы, посвящённые типологии корпусов1, аннотированию мультимодальных данных , а также исследования в области семантики и компьютерной лингвистики .
Методологическую основу исследования составляют методы разных наук: методы автоматической и полуавтоматической обработки текстовых и звуковых данных, корпусные методы, методы исследования семантики.
Теоретическая значимость работы определяется её вкладом в дальнейшую разработку системы разметки корпуса. Апробированные инструменты обработки текстовых и аудиоматериалов могут быть использованы в дальнейшем для решения задач морфологического анализа и синхронизированного представления звуковых и текстовых данных. Практическая значимость данной работы заключается в том, что построенная последовательность действий при работе над корпусом может быть использована при работе над корпусом с использованием методов автоматической обработки текстовых и аудиоматериалов.
Структура работы: работа включает в себя введение, две главы, заключение и список литературы.
Во введении обосновывается актуальность исследования, формулируются объект, предмет, цель и решаемые задачи, приводятся примеры литературы, освещающие историю вопроса, определяются теоретическая и практическая значимость.
В первой главе описано развитие методологии корпусной лингвистики и типология корпусов, а также дана характеристика корпуса RuTuBiC согласно основных типологически релевантных признаков.
Вторая глава посвящена обоснованию выбора и описанию работы инструментов автоматической обработки текстовых и аудиоматериалов и их применению в осуществлении некоторых видов анализа текста, описана репрезентационная схема мультимодальной разметки. Также во второй главе описано многоуровневое аннотирование отклонений от речевого стандарта.
В заключении подводятся основные итоги исследования и определяются перспективы его дальнейшего развития.
Апробация работы. Основные этапы работы над корпусом были представлены на научно-практических мероприятиях: VI (XX) Международная конференция молодых учёных «Актуальные проблемы лингвистики и литературоведения», НИ ТГУ, 18-20 апреля 2019; научная школа «Контактирование языков: лингвистический, социолингвистический, психолингвистический аспекты», (32 часа), 13-16 мая 2019; XXX ежегодная Международная научная конференция «Язык и культура», 16-19 сентября 2019 года; Двадцатые филологические чтения «Интерпретационный потенциал языковой системы и творческая активность говорящего: взаимодействие лексической и грамматической семантики», 17-18 октября 2019 года; Международная конференция молодых учёных и педагогов «Проблемы сохранения культурно-языкового разнообразия Российской Федерации», апрель 2020 (тезисы доклада прошли экспертизу); VII (XXI) Международная научно-практическая конференция молодых ученых «Актуальные проблемы лингвистики и литературоведения», НИ ТГУ, 16-18 апреля 2020 года.
Актуальность данной работы определяется потребностью в создании корпуса, содержащего примеры реального языкового употребления и предоставляющего возможность для фиксации и анализа типов речевых отклонений на всех уровнях языковой системы в соотнесении с типами языкового контактирования. Необходимость изучения языкового контактирования и создания подобных корпусов обусловлена, прежде всего, усиливающимися тенденциями глобализации на основе русского языка, являющегося единственным официальным языком на территории Российской Федерации и определяющего социальную реальность сосуществования представителей разных народов в многонациональном государстве.
Существует ряд российских и зарубежных проектов, посвящённых изучению влияния материнских языков населения разных регионов на устную и письменную речь билингвов, использующих русских язык. Следует отметить, что респонденты, чья речь была использована в качестве материала корпуса RuTuBiC, являются именно носителями естественного билингвизма, однако так же существуют и корпуса, созданные для изучения учебного билингвизма. Среди российских проектов особенный интерес представляют такие корпуса как корпус контактно-обусловленной русской речи носителей Севера Сибири и Дальнего Востока, материалы которого расшифрованы и размечены П.С. Плешак, Н.М. Стойновой и И.А. Хомченковой и Русский учебный корпус1 — проект НИУ ВШЭ, осуществляемый Лабораторией по корпусным исследованиям под руководством Е.В. Рахилиной. Целью создания обоих корпусов было изучение разных аспектов устной и письменной речи носителей естественного и учебного билингвизма. Кроме того, интерес представляют и корпуса, содержащие русскую устную речь монолингвов, прежде всего корпуса, созданные в рамках проекта «Рассказы о сновидениях и другие корпуса звучащей речи» . Каждый из перечисленных корпусов имеет мотивированную систему разметки и описание технических аспектов создания корпуса, представленные в публикациях .
Корпусная лингвистика является разделом компьютерной лингвистики, поэтому работа с корпусами текстов тесно связана с использованием компьютерных технологий и программного обеспечения, дающего исследователям возможность быстрого получения и обработки информации. Развитие и совершенствование технологий обработки и хранения записей аудиофайлов также сделало возможным создание корпусов звучащей речи. Несомненным преимуществом звукозаписывающих технологий - возможность повторного воспроизведения аудиофрагмента, что при расшифровке позволяет отразить все особенности употребления различных единиц языка. В зависимости от цели создания корпуса звучащей речи могут содержать как короткие фрагменты текстов, записанные в лабораторных условиях, так и записи неподготовленной устной речи в ситуациях реального общения. Записи лекций или других публичных выступлений в таких случаях не являются достаточно репрезентативным материалом, так как в них представлена «озвученная» норма письменного литературного языка.
Корпус русской устной речи тюркско-русских билингвов RuTuBiC создаётся в рамках проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур» , цель которого — выявление закономерностей исторического развития и современного состояния языков и культур Южной Сибири в аспекте их взаимодействия на основании современных языковых, антропологических и психолингвистических данных с применением корпусных и психолингвистических методов исследования. Основной отличительной особенностью корпуса является бимодальность — сочетание двух типов внешних стимулов, воспринимаемых человеком, которому адресован текст. Русский язык, являясь вторым, не материнским, активно используется авторами текстов корпуса во многих сферах, прежде всего в институциональной коммуникации1. Корпус содержит три подкорпуса: шорско-русский, татарско-русский, хакасско-русский.
Основной материал корпуса — полевые записи устной речи, собранные в течение трёх лет г. Шерегеш и Таштагол, пос. Большая Суета Кемеровской области, г. Абакан, с. Аскиз, с. Чиланы, д. Юрт-Оры и Акбалык. В настоящее время корпус включает в себя более пятиеот часов звучания. В записи интервью участвовали респонденты трёх возрастных групп.
Объектом исследования в данной работе является корпус русской устной речи тюркско-русских билингвов Южной Сибири.
Предмет исследования - система лингвистической разметки и метаразметки мультимодального корпуса.
Цель данной работы - описание типологически релевантных признаков создаваемого корпуса и инструментов, используемых в процессе его создания.
Для достижения цели были поставлены следующие задачи:
1. дать общую характеристику корпуса;
2. описать типы разметки, применяемые к материалам корпуса;
3. выбрать и апробировать подходящие методы автоматической обработки текстовых и аудиоматериалов.
В работе используется следующее программное обеспечение для работы с материалами корпуса: автоматический морфологический анализатор Mystem и программа для создания и аннотирования мультимодальных файлов ELAN .
Теоретической основой исследования являются работы, посвящённые типологии корпусов1, аннотированию мультимодальных данных , а также исследования в области семантики и компьютерной лингвистики .
Методологическую основу исследования составляют методы разных наук: методы автоматической и полуавтоматической обработки текстовых и звуковых данных, корпусные методы, методы исследования семантики.
Теоретическая значимость работы определяется её вкладом в дальнейшую разработку системы разметки корпуса. Апробированные инструменты обработки текстовых и аудиоматериалов могут быть использованы в дальнейшем для решения задач морфологического анализа и синхронизированного представления звуковых и текстовых данных. Практическая значимость данной работы заключается в том, что построенная последовательность действий при работе над корпусом может быть использована при работе над корпусом с использованием методов автоматической обработки текстовых и аудиоматериалов.
Структура работы: работа включает в себя введение, две главы, заключение и список литературы.
Во введении обосновывается актуальность исследования, формулируются объект, предмет, цель и решаемые задачи, приводятся примеры литературы, освещающие историю вопроса, определяются теоретическая и практическая значимость.
В первой главе описано развитие методологии корпусной лингвистики и типология корпусов, а также дана характеристика корпуса RuTuBiC согласно основных типологически релевантных признаков.
Вторая глава посвящена обоснованию выбора и описанию работы инструментов автоматической обработки текстовых и аудиоматериалов и их применению в осуществлении некоторых видов анализа текста, описана репрезентационная схема мультимодальной разметки. Также во второй главе описано многоуровневое аннотирование отклонений от речевого стандарта.
В заключении подводятся основные итоги исследования и определяются перспективы его дальнейшего развития.
Апробация работы. Основные этапы работы над корпусом были представлены на научно-практических мероприятиях: VI (XX) Международная конференция молодых учёных «Актуальные проблемы лингвистики и литературоведения», НИ ТГУ, 18-20 апреля 2019; научная школа «Контактирование языков: лингвистический, социолингвистический, психолингвистический аспекты», (32 часа), 13-16 мая 2019; XXX ежегодная Международная научная конференция «Язык и культура», 16-19 сентября 2019 года; Двадцатые филологические чтения «Интерпретационный потенциал языковой системы и творческая активность говорящего: взаимодействие лексической и грамматической семантики», 17-18 октября 2019 года; Международная конференция молодых учёных и педагогов «Проблемы сохранения культурно-языкового разнообразия Российской Федерации», апрель 2020 (тезисы доклада прошли экспертизу); VII (XXI) Международная научно-практическая конференция молодых ученых «Актуальные проблемы лингвистики и литературоведения», НИ ТГУ, 16-18 апреля 2020 года.
Данное исследование показало, что создание корпуса текстов действительно требует объединения лингвистической теории и информационных технологий, позволяющие решить задачи, связанные с обработкой большого количества данных.
Описанные информационные технологии являются простыми в реализации, что понижает порог вхождения в процесс создания корпуса. Использование автоматического морфологического анализатора позволяет отказаться от приписывания словам частеречных и морфологических характеристик вручную и избежать расхождения в употреблении тегов в рамках одного корпуса. Мультимодальные файлы, созданные в программе ELAN дают возможность составить наглядное представление о структуре корпуса и его поисковых возможностях, а также реализовать его главный дифференциальный параметр - бимодальность.
На данный момент одной из сложностей является ручное составление пользовательских словарей для коррекции результатов работы автоматического морфологоического анализатора Mystem, так как стандарт, заложенный там, ориентирован на нормы письменного литературного языка и не отражает всех особенностей устной речи. С особенностями беглой спонтанной речи так же связана другая сложность - при создании мультимодального файла в программе ELAN требуется ручная сегментация аудиофайла, так как существующие инструменты автоматической сегментации звучащей речи не дают достаточно точных результатов.
Данная работа была выполнена в рамках проекта Лаборатории лингвистической антропологии НИ ТГУ «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур»
Описанные информационные технологии являются простыми в реализации, что понижает порог вхождения в процесс создания корпуса. Использование автоматического морфологического анализатора позволяет отказаться от приписывания словам частеречных и морфологических характеристик вручную и избежать расхождения в употреблении тегов в рамках одного корпуса. Мультимодальные файлы, созданные в программе ELAN дают возможность составить наглядное представление о структуре корпуса и его поисковых возможностях, а также реализовать его главный дифференциальный параметр - бимодальность.
На данный момент одной из сложностей является ручное составление пользовательских словарей для коррекции результатов работы автоматического морфологоического анализатора Mystem, так как стандарт, заложенный там, ориентирован на нормы письменного литературного языка и не отражает всех особенностей устной речи. С особенностями беглой спонтанной речи так же связана другая сложность - при создании мультимодального файла в программе ELAN требуется ручная сегментация аудиофайла, так как существующие инструменты автоматической сегментации звучащей речи не дают достаточно точных результатов.
Данная работа была выполнена в рамках проекта Лаборатории лингвистической антропологии НИ ТГУ «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур»
Подобные работы
- Tsakorpus как поисковая платформа для Корпуса устной речи тюркско-русских билингвов (RuTuBiC)
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4550 р. Год сдачи: 2024



