Тип работы:
Предмет:
Язык работы:


СИСТЕМА РАЗМЕТКИ И МЕТАРАЗМЕТКИ В КОРПУСЕ РУССКОЙ УСТНОЙ РЕЧИ ТЮРКСКО-РУССКИХ БИЛИНГВОВ (RuTuBiC)

Работа №73337

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы67
Год сдачи2020
Стоимость5620 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
254
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. RuTuBiC: лингвистически размеченный корпус текстов - определение понятий....9
1.1. Развитие методологии корпусной лингвистики 9
1.2. Лингвистически размеченный корпус текстов - определение понятия 12
1.3 Типология лингвистически размеченных корпусов 14
1.4 Корпус RuTuBiC: типологические характеристики 22
Выводы по 1 главе 27
Глава 2. Многоуровневое аннотирование бимодального корпуса 29
2.1. Автоматическая морфологическая разметка 29
2.2. Аннотирование мультимодального файла 37
2.3. Мультимодальное аннотирование корпуса RuTuBiC 45
Выводы по 2 главе 53
Заключение 54
ЛИТЕРАТУРА 55
ПРИЛОЖЕНИЕ


Во второй половине двадцатого века в отечественной и зарубежной лингвистике выделилось направление, цель которого - изучение языковых закономерностей на материале структурированных собраний текстов. Основной отличительный признак таких собраний текстов - возможность осуществления поиска по заданным параметрам для дальнейшего анализа полученных результатов. Такое собрание текстов, объединённых по какому- либо признаку называют текстовым корпусом. Раздел лингвистики, использующий текстовые корпуса для анализа данных с помощью корпусных методов, называется корпусная лингвистика. Являясь исходным материалом для корпусной лингвистики, корпус текстов в то же время является её основным продуктом. На данном этапе развития технологий сбора, обработки и хранения данных наибольшей ценностью обладают корпуса текстов, снабжённых лингвистической и метаинформацией, позволяющей в дальнейшем осуществлять различные виды анализа в соответствии с исследовательскими задачами, которые ставят перед собой создатели корпуса. В данной работе представлена попытка создания системы лингвистической разметки и метаразметки в корпусе русской устной речи тюркско-русских билингвов RuTuBiC.
Актуальность данной работы определяется потребностью в создании корпуса, содержащего примеры реального языкового употребления и предоставляющего возможность для фиксации и анализа типов речевых отклонений на всех уровнях языковой системы в соотнесении с типами языкового контактирования. Необходимость изучения языкового контактирования и создания подобных корпусов обусловлена, прежде всего, усиливающимися тенденциями глобализации на основе русского языка, являющегося единственным официальным языком на территории Российской Федерации и определяющего социальную реальность сосуществования представителей разных народов в многонациональном государстве.
Существует ряд российских и зарубежных проектов, посвящённых изучению влияния материнских языков населения разных регионов на устную и письменную речь билингвов, использующих русских язык. Следует отметить, что респонденты, чья речь была использована в качестве материала корпуса RuTuBiC, являются именно носителями естественного билингвизма, однако так же существуют и корпуса, созданные для изучения учебного билингвизма. Среди российских проектов особенный интерес представляют такие корпуса как корпус контактно-обусловленной русской речи носителей Севера Сибири и Дальнего Востока, материалы которого расшифрованы и размечены П.С. Плешак, Н.М. Стойновой и И.А. Хомченковой и Русский учебный корпус1 — проект НИУ ВШЭ, осуществляемый Лабораторией по корпусным исследованиям под руководством Е.В. Рахилиной. Целью создания обоих корпусов было изучение разных аспектов устной и письменной речи носителей естественного и учебного билингвизма. Кроме того, интерес представляют и корпуса, содержащие русскую устную речь монолингвов, прежде всего корпуса, созданные в рамках проекта «Рассказы о сновидениях и другие корпуса звучащей речи» . Каждый из перечисленных корпусов имеет мотивированную систему разметки и описание технических аспектов создания корпуса, представленные в публикациях .
Корпусная лингвистика является разделом компьютерной лингвистики, поэтому работа с корпусами текстов тесно связана с использованием компьютерных технологий и программного обеспечения, дающего исследователям возможность быстрого получения и обработки информации. Развитие и совершенствование технологий обработки и хранения записей аудиофайлов также сделало возможным создание корпусов звучащей речи. Несомненным преимуществом звукозаписывающих технологий - возможность повторного воспроизведения аудиофрагмента, что при расшифровке позволяет отразить все особенности употребления различных единиц языка. В зависимости от цели создания корпуса звучащей речи могут содержать как короткие фрагменты текстов, записанные в лабораторных условиях, так и записи неподготовленной устной речи в ситуациях реального общения. Записи лекций или других публичных выступлений в таких случаях не являются достаточно репрезентативным материалом, так как в них представлена «озвученная» норма письменного литературного языка.
Корпус русской устной речи тюркско-русских билингвов RuTuBiC создаётся в рамках проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур» , цель которого — выявление закономерностей исторического развития и современного состояния языков и культур Южной Сибири в аспекте их взаимодействия на основании современных языковых, антропологических и психолингвистических данных с применением корпусных и психолингвистических методов исследования. Основной отличительной особенностью корпуса является бимодальность — сочетание двух типов внешних стимулов, воспринимаемых человеком, которому адресован текст. Русский язык, являясь вторым, не материнским, активно используется авторами текстов корпуса во многих сферах, прежде всего в институциональной коммуникации1. Корпус содержит три подкорпуса: шорско-русский, татарско-русский, хакасско-русский.
Основной материал корпуса — полевые записи устной речи, собранные в течение трёх лет г. Шерегеш и Таштагол, пос. Большая Суета Кемеровской области, г. Абакан, с. Аскиз, с. Чиланы, д. Юрт-Оры и Акбалык. В настоящее время корпус включает в себя более пятиеот часов звучания. В записи интервью участвовали респонденты трёх возрастных групп.
Объектом исследования в данной работе является корпус русской устной речи тюркско-русских билингвов Южной Сибири.
Предмет исследования - система лингвистической разметки и метаразметки мультимодального корпуса.
Цель данной работы - описание типологически релевантных признаков создаваемого корпуса и инструментов, используемых в процессе его создания.
Для достижения цели были поставлены следующие задачи:
1. дать общую характеристику корпуса;
2. описать типы разметки, применяемые к материалам корпуса;
3. выбрать и апробировать подходящие методы автоматической обработки текстовых и аудиоматериалов.
В работе используется следующее программное обеспечение для работы с материалами корпуса: автоматический морфологический анализатор Mystem и программа для создания и аннотирования мультимодальных файлов ELAN .
Теоретической основой исследования являются работы, посвящённые типологии корпусов1, аннотированию мультимодальных данных , а также исследования в области семантики и компьютерной лингвистики .
Методологическую основу исследования составляют методы разных наук: методы автоматической и полуавтоматической обработки текстовых и звуковых данных, корпусные методы, методы исследования семантики.
Теоретическая значимость работы определяется её вкладом в дальнейшую разработку системы разметки корпуса. Апробированные инструменты обработки текстовых и аудиоматериалов могут быть использованы в дальнейшем для решения задач морфологического анализа и синхронизированного представления звуковых и текстовых данных. Практическая значимость данной работы заключается в том, что построенная последовательность действий при работе над корпусом может быть использована при работе над корпусом с использованием методов автоматической обработки текстовых и аудиоматериалов.
Структура работы: работа включает в себя введение, две главы, заключение и список литературы.
Во введении обосновывается актуальность исследования, формулируются объект, предмет, цель и решаемые задачи, приводятся примеры литературы, освещающие историю вопроса, определяются теоретическая и практическая значимость.
В первой главе описано развитие методологии корпусной лингвистики и типология корпусов, а также дана характеристика корпуса RuTuBiC согласно основных типологически релевантных признаков.
Вторая глава посвящена обоснованию выбора и описанию работы инструментов автоматической обработки текстовых и аудиоматериалов и их применению в осуществлении некоторых видов анализа текста, описана репрезентационная схема мультимодальной разметки. Также во второй главе описано многоуровневое аннотирование отклонений от речевого стандарта.
В заключении подводятся основные итоги исследования и определяются перспективы его дальнейшего развития.
Апробация работы. Основные этапы работы над корпусом были представлены на научно-практических мероприятиях: VI (XX) Международная конференция молодых учёных «Актуальные проблемы лингвистики и литературоведения», НИ ТГУ, 18-20 апреля 2019; научная школа «Контактирование языков: лингвистический, социолингвистический, психолингвистический аспекты», (32 часа), 13-16 мая 2019; XXX ежегодная Международная научная конференция «Язык и культура», 16-19 сентября 2019 года; Двадцатые филологические чтения «Интерпретационный потенциал языковой системы и творческая активность говорящего: взаимодействие лексической и грамматической семантики», 17-18 октября 2019 года; Международная конференция молодых учёных и педагогов «Проблемы сохранения культурно-языкового разнообразия Российской Федерации», апрель 2020 (тезисы доклада прошли экспертизу); VII (XXI) Международная научно-практическая конференция молодых ученых «Актуальные проблемы лингвистики и литературоведения», НИ ТГУ, 16-18 апреля 2020 года.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Данное исследование показало, что создание корпуса текстов действительно требует объединения лингвистической теории и информационных технологий, позволяющие решить задачи, связанные с обработкой большого количества данных.
Описанные информационные технологии являются простыми в реализации, что понижает порог вхождения в процесс создания корпуса. Использование автоматического морфологического анализатора позволяет отказаться от приписывания словам частеречных и морфологических характеристик вручную и избежать расхождения в употреблении тегов в рамках одного корпуса. Мультимодальные файлы, созданные в программе ELAN дают возможность составить наглядное представление о структуре корпуса и его поисковых возможностях, а также реализовать его главный дифференциальный параметр - бимодальность.
На данный момент одной из сложностей является ручное составление пользовательских словарей для коррекции результатов работы автоматического морфологоического анализатора Mystem, так как стандарт, заложенный там, ориентирован на нормы письменного литературного языка и не отражает всех особенностей устной речи. С особенностями беглой спонтанной речи так же связана другая сложность - при создании мультимодального файла в программе ELAN требуется ручная сегментация аудиофайла, так как существующие инструменты автоматической сегментации звучащей речи не дают достаточно точных результатов.
Данная работа была выполнена в рамках проекта Лаборатории лингвистической антропологии НИ ТГУ «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур»



1. Архипов А. В. Документирование малых языков: научные и технические аспекты // Языковое разнообразие в киберпространстве: российский и зарубежный опыт. - М., 2008. - С. 76-83.
2. Бабенко Л. Г. Русские глагольные предложения: экспериментальный синтаксический словарь / Под общ. ред. Л. Г. Бабенко. М.: Флинта: Наука, 2002.
3. Богданова Н. В. и др. Звуковой корпус русского языка «Один речевой день»: пути пополнения и первые результаты исследования // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). М.: Издательство РГГУ, 2010.
4. Большакова Е. И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. Пособие / Большакова Е. И. и др. — М.: МИЭМ, 2011.
5. Гришина Е. А. Два новых проекта для Национального корпуса: мультимедийный подкорпус и подкорпус названий // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 233—250.
6. Гришина Е. А. Устная речь в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 94—110.
7. Гришина Е. А. О маркерах разговорной речи (предварительное исследование подкорпуса кино в Национальном корпусе русского языка) // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог'2007» (Бекасово, 30 мая — 3 июня 2007 г.), 147—156
8. Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 175—214.
9. Гришина Е. А., Савчук С. О. Корпус устных текстов в НКРЯ: состав и структура // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 129—149.
10. Ермакович М. В. Автоматическое определение границ слова в русском языке / Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2017» Москва, 31 мая — 3 июня 2017.
11. Захаров В. П. Корпусная лингвистика: Учебник для студентов направления «Лингвистика». 2-е изд., перераб. и дополн., / В. П. Захаров, С. Ю. Богданова. - СПб.: СПбГУ. РИО. Филологический факультет, 2013. — 148 с.
12. Зеленков Ю. Г., Сегалович И. В., Титов В. А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара «Диалог — 2005». М., 2005. С. 188-197.
13. Земская Е. А. Русская разговорная речь. Общие вопросы.
Словообразование. Синтаксис / Е. А. Земская и др. М: Наука, 1981.
14. Карасик В. И. О типах дискурса // Языковая личность:
институциональный и персональный дискурс: Сб. науч. тр. Волгоград: Перемена, 2000.
15. Кибрик А. А. Рассказы о сновидениях: корпусное исследовение русского устного дискурса / Под ред. А. А. Кибрика и В. И. Подлесской, М.: Языки славянских культур, 2009. — 736 с.: ил.
16. Копотев М. В. Введение в корпусную лингвистику / М. В. Копотев - Прага, Animedia Company, 2014.
17. Литвиненко О. А. Николаева Ю. В., Аннотирование русских мануальных жестов: теоретические и практические вопросы, 2017.
18. Ляшевская О. Н. К проблеме лемматизации несловарных слов // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2007», 407—412.
19. Ляшевская О. Н., Плунгян В. А., Поляков А. Е., Савчук С. О., Сичинава Д. В. Обработка текстов для Национального корпуса русского языка: технологическая цепочка. Международная конференция «Корпусная лингвистика-2004». Тезисы докладов. СПб.: СПбГУ, 54—56
20. Марчук Ю. Н. Компьютерная лингвистика: учеб. Пособие / Ю. Н. Марчук — М.: ACT: Восток — Запад, 2007
21. Плунгян В. А. Зачем нужен национальный корпус русского языка? Неформальное введение // Национальный корпус русского языка: 2003¬2005. Результаты и перспективы. М., 2005.
22. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении, 2008, No. 16 (2), 7—20.
23. Рахилина Е. В. Корпус как творческий проект // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 7—26.
24. Резанова, З. И. История языкознания: XIX - первая половина ХХ века: Хрестоматия : учебное пособие : в 2 частях / З. И. Резанова. — 2-е изд., стер. — Москва : ФЛИНТА, [б. г.]. — Часть 1 : 2 — 2012. — 264 с.
25. Резанова З. И. Корпус устной речи русско-тюркских билингвов Южной Сибири: разметка отклонений от речевого стандарта // Вопросы лексикографии, No. 15, 2019, С. 127- 140.
26. Резанова З. И., Веснина Г. Ю. Подкорпус русской речи билингвов лингвистического корпуса «Томский региональный текст»: принципы разметки и метаразметки корпуса // Вопр. лексикографии. - 2016. - No 1 (9). - С. 29-39.
27. Резанова З. И. Подкорпус устной речи русско-тюркских билингвов Южной Сибири: типологически релевантные признаки // Вопросы лексикографии. 2017. No 11. C. 105-118.
28. Розенталь Д. Э., Теленкова М. А. Словарь-справочник лингвистических терминов. — Изд. 2-е. —:Просвещение, 1976.
29. Савчук С. О, Сичинава Д. В. Обучающий корпус русского языка и его использование в преподавательской практике // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 317—334.
30. Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. — М., 2005, 62 —88.
31. Сичинава Д.В. Национальный корпус русского языка: очерк предыстории. 2005.
32. Труды международной конференции «Корпусная лингвистика - 2011» 27-29 июня 2011 г., Санкт-Петербург. - СПб.: СПбГУ. Филологический факультет, 2011. - 348 с.
33. Шерстинова Т. Ю. Лингвистические мультимедийные архивы и национальный Фонд звучащей речи «Голоса народов России».
34. Шерстинова Т.Ю. «Один речевой день» на временной шкале: о перспективах исследования динамических процессов на материале звукового корпуса // Филология. Востоковедение. Журналистика. Серия 9. - СПб., 2009.
35. Adolphs S., Knight D. Building a spoken corpus: What are the basics? // The Routledge Handbook of Corpus Linguistics / ed. by Anne O'Keeffe and Michael McCarthy, 2010.
36. Aguera P et al. ELAN: A Software Package for Analysis and Visualization of MEG, EEG, and LFP Signals.
37. Biber D., Conrad S., Reppen R. Corpus Linguistics. Investigating language structure and use. Cambridge University Press, 1998.
38. Blokland R. et al. Language Documentation meets Language Technology.
39. Brugman H., Russel A. Annotating Multi-media / Multi-modal resources with ELAN.
40. Ide N., Pustejovsky J. Handbook of Linguistic Annotation / Springer 2017.
41. Jurafsky, Daniel & Martin, James. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2008.
42. Khomchenkova I. A., Pleshak P S., Stoynova N. M. The Corpus of Contact- Influenced Russian of Northern Siberia and the Russian far East // Papers from the Annual International Conference “Dialogue”. M.: RSUH. 2019. P. 253-264.
43. Kilgarriff, A., Grefenstette, G.: 2003, Introduction to the special issue on web as corpus // Computational Linguistics. 2003. No 29 (3). Р 333-347.
44. McEnery T., Wilson A. Corpus linguistics. Edinburgh: Edinburgh University Press, 1996.
45. Partanen N. et al. Instant annotations in ELAN corpora of spoken and written Komi, an endangered language of the Barents Sea region.
46. Rakhilina E., Vyrenkova A., Mustakimova E., Ladygina A., Smirnov I. Building a learner corpus for Russian // Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition at SLTC, Umea, 16th November 2016.
47. Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine linguistics]. Prague: Animedia.
48. Sinclair, J. (1996) EAGLES. Preliminary recommendations on Corpus Typology. EAG-TCWG-CTYP/P. Version of May, 1996.
49. Soldner F., Perez-Rosas V., Mihalcea R. Box of Lies: Multimodal Deception Detection in Dialogues.
50. Wittenburg P et al. ELAN: a Professional Framework for Multimodality Research.
51. URL: http://web-corpora.net/RLC.
52. URL: http:ZZspokeneorpora.ru/.
53. URL: https:ZZarehive.mpi.nl/tlaZelan
54. URL: http:ZZp220.ruZlabsZlaboratoriya-lingvistieheskoy-antropologiiZ.
55. URL: https:ZZyandex.ruZdevZmystemZ.
56. URL: http: ZZwww.ile.enr.itZEAGLES96Z eorpustypZ eorpustyp.html.
57. URL: http:ZZwww.ruseorpora.ruZnewZ eorpora-strueture.html.
58. URL: https:ZZjohnsonsdietionaryonline.eomZ
59. URL: https:ZZwals.infoZ
60. URL: http:ZZwww.helsinki.fiZslaavilaisetZeemhZ
61. URL: https:ZZwww.anvil-software.orgZ.
62. URL: https:ZZehronoviz.eomZ.
63. URL: https:ZZexmaralda.orgZenZpartitur-editor-enZ.
64. URL: http:ZZweb-eorpora.netZtsakorpus_russian_nonstZ eorpus .html.
65. URL: http:ZZwww.ord-eorpus.spbu.ruZSoeialStudiesZp_00_001.html.
66. URL: https:ZZwww.fon.hum.uva.nlZpraatZ.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ