Тип работы:
Предмет:
Язык работы:


Tsakorpus как поисковая платформа для Корпуса устной речи тюркско-русских билингвов (RuTuBiC)

Работа №183114

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы55
Год сдачи2024
Стоимость4550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
6
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
1 Лингвистический корпус в компьютерном приближении 8
1.1 Корпусная лингвистика: основные понятия 8
1.2 Принципы разметки и метаразметки Корпуса тюркских-русских билингвов (RuTuBiC) 13
1.2.1 Типологическая характеристика корпуса 13
1.2.2 Принципы разметки и метаразметки корпуса 16
1.3 Tsakorpus — комплекс программных средств для управления
лингвистическими данными 18
1.3.1 Опыт использования Tsakorpus в проектах схожей направленности 21
2 Tsakorpus: интеграция системы разметки и метаразметки .... 26
2.1 Изменения уровневой организации данных 27
2.2 Создание преконвертера для нормализации исходных файлов . 29
2.2.1 Модуль токенизатор: сегментация текста 31
2.2.2 Модуль валидатор: проверка соответствия 33
2.2.3 Модуль конвертер тегов: унификация маркировок ... 36
2.3 Особенности реализации разметки и метаразметки на платформе Tsakorpus 38
2.4 Демонстрация возможностей поиска по корпусу 42
ЗАКЛЮЧЕНИЕ 47
ЛИТЕРАТУРА 54
ПРИЛОЖЕНИЕ A 55
ПРИЛОЖЕНИЕ B 57


Данная работа направлена на адаптацию создаваемого в настоящий момент Корпуса устной речи русско-тюркских билингвов к корпусной платформе Tsakorpus. В работе подробно приводится технологический процесс адаптации и, более того, в качестве решения типовых проблем, возникающих в ходе упомянутого процесса, предлагаются специально разработанные инструменты.
Об актуальности рассматриваемой проблемы свидетельствует неутихающий интерес к современному инструменту исследования языка. На рубеже XX-XXI вв. с развитием научно-технического прогресса и увеличением вычислительной мощности компьютеров лингвистическая наука значительно преобразилась. Так, одним из ведущих прикладных направлений современного языкознания стала корпусная лингвистика, с появлением которой изменился подход к изучению языка и лингвистическим исследованиям: оказалось возможным проверять языковые гипотезы на больших массивах текстовых данных. Корпусная лингвистика позволяет исследовать сложную языковую систему, исходя из реального использования языка носителями, а не только из искусственно созданных лингвистами примеров, которые прежде опирались исключительно на метод интроспекции и лежащую в его основе интуицию исследователя-носителя [34, с. 80]. Кроме того, развитие корпусной лингвистики само способствовало появлению новых теорий языка [22, с. 147] и перенаправило научный вектор, изменив теоретические приоритеты, если не сказать само понимание языка и актуальные задачи его изучения [36]. О роли корпусной лингвистики в процессе смены научной парадигмы и современных исследованиях, в частности, рассуждают в работах И. Ф. Ганиева, В.
А. Плунгян, А. Ю. Мордовин, О. Ю. Гончаровская, К. П. Чилингарян, В. В. Мамонтова, Е. В. Грудева Таким образом, использование корпусных данных в современной лингвистике считается хорошим тоном и иногда даже необходимой практикой: любое серьезное исследование, претендующее на достоверность выносимых суждений о языке, должно привлекать статистически выверенный эмпирический материал на основе концентрированного объема текстов.
В настоящее время корпусная лингвистика находит широкое применение в вопросах лингводидактики, лексикографии. Авторы на основе примеров естественного использования языка, нередко полученных из параллельных корпусов, содержащих переводы исходных текстов на другой язык или языки, предлагают методики обучения иностранным языкам. Здесь можно назвать работы таких исследователей, как П.В. Сысоев, О.В. Нагель, О.В. Заговор- ская, А.А. Кокорева и др. Параллельные корпусы используются и в переводческой практике для нахождения эквивалентов, поскольку они отображают «проблемы передачи различных языковых значений в сопоставляемых языках» [20, с. 105].
С другой стороны, на актуальность работы обращает внимание появление новых технических средств для конструирования языковых корпусов. На сегодняшний день существует немало готовых решений, но все они обладают недостатками разной степени серьезности, так или иначе затрудняющие задачу построения корпуса, который бы одновременно отвечал исследовательским целям и был удобен в работе. В противоположность сказанному, Tsakorpus лишен многих недостатков и обладает рядом неоспоримых преимуществ, на что среди прочего указывает растущая популярность «молодой» платформы Tsakorpus в академической среде: помимо опыта конструирования корпусов самим разработчиком платформы [3; 4], к ней прибегают также многие другие исследователи, тоже работающие с языками малых народов России [2; 8; 35] и не только [1; 15]. Как можно видеть, рассматриваемая нами корпусная платформа, несмотря на свое недавнее появление, уже успела получить внимание исследователей и соответствующие публикации.
Новизна работы заключается в том, что впервые был продемонстрирован процесс адаптации корпуса с нестандартной, комплексной системой разметки и метаразметки. Корпусы, использующие ту же программную платформу, не отличаются, за редким исключением, сложностью разметки; в то же время наш корпус включает в свою разметку множество разнородных параметров вроде маркировки ошибок и дискурсивных характеристик.
Практическая значимость работы состоит в подробном представлении процесса адаптации корпусных данных, определении технологических шагов, разработке и описании принципов работы вспомогательных программ, а также общей конфигурации корпусной платформы, опыт чего может быть применен при создании корпусов, имеющих с настоящим общие методические основания.
Объектом исследования выступает Корпус устной речи тюркско- русских билингвов Южной Сибири (далее — RuTuBiC).
Предмет исследования — инструменты индексирования и поиска данных в корпусе RuTuBiC.
Цель настоящей работы — обеспечить корпус RuTuBiC системой управления и поиска Tsakorpus.
В соответствии с целью были обозначены следующие задачи:
1. Дать общую характеристику корпуса и выделить признаки, релевантные для поисковой системы.
2. Рассмотреть настоящий корпус в сопоставлении с другими исследовательскими корпусами, реализованными на платформе Tsakorpus.
3. Имплементировать систему разметки и метаразметки настоящего корпуса в контексте платформы Tsakorpus
4. Разработать программные средства для адаптации и последующей индексации корпусных данных.
5. Выполнить полную настройку платформы Tsakorpus, отвечающую исследовательским целям.
В настоящей работе используeтся метод корпусной лингвистики, отраженный в ориентации на создание и использование лингвистических корпусов, а также методы автоматической обработки естественного языка, заключающиеся прежде всего в токенизации и (полу)автоматическом морфологическом анализе устного текста.
В процессе работы были задействованы материалы корпуса RuTuBiC, которые на данный момент представляют собой около 500 часов полевых аудиозаписей, из которых в разной степени завершенности размечены 25 часов.
Структуру работы образуют введение, две главы, заключение, список литературы и приложения.
Во введении обоснована актуальность и представлены квалификационные параметры работы: новизна, объект и предмет, цель и задачи, методы исследования.
Первая глава посвящена теоретическому рассмотрению корпусной лингвистики как отдельной научной дисциплины и вписанности проекта RuTuBiC в этот контекст. В главе представлены основные понятия, определена специфика корпуса RuTuBiC, а также обоснован выбор программной платформы и проанализирован опыт ее использования на примере различных исследовательских корпусов.
Во второй главе обсуждается проблема адаптации данных корпуса RuTuBiC к платформе Tsakorpus. В качестве решения этой задачи предлагается процесс предварительной полуавтоматической конвертации и специальный программный инструмент — преконвертер, имеющий трехмодульную структуру. Кроме того, в заключительных разделах фрагментарно показана конфигурация корпусной платформы и демонстрируются ее поисковые возможности.
В заключении подводятся итоги работы.
Список литературы включает 42 источника, которые покрывают вопросы тенденций научного знания с появлением корпусной лингвистики, построения корпусов и проведения исследований с их использованием, проекта RuTuBiC и пр.
В приложении А приведен листинг файла categories.json, использующегося платформой Tsakorpus для сортировки морфологических тегов.
В приложение Б представлен листинг модуля tag_converter.py, входящего в преконвертер.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


На сегодняшний день одной из наиболее перспективных и быстроразвивающихся областей лингвистики является корпусная лингвистика, основывающаяся на использовании больших корпусов текстов для изучения языковых явлений. Об этом стремительном росте свидетельствует как создание новых исследовательских корпусов, прежде всего национальных, отличающихся грандиозными масштабами, так и появление различных программных инструментов, удовлетворящих нужды построения корпусов.
В ходе данного исследования, целью которого было обеспечить Корпус устной речи тюркско-русских билингвов системой управления и поиска Tsakorpus, в первую очередь была дана подробная характеристика самому корпусу, рассмотрена система разметки и метаразметки и выявлены значимые для поисковой системы характеристики. С целью изучения опыта других исследовательских проектов корпус RuTiBiC был рассмотрен в контексте корпусов, тоже использующих платформу Tsakorpus. Наконец, были обозначены преимущества выбранной корпусной платформы относительно других существующих решений: 1) гибкость, кастомизируемость, 2) относительная простота использования, 3) бесплатность и открытый исходный код.
В качестве возможного решения был разработан преконвертер для адаптации данных корпуса и описаны принципы работы входящих в него модулей. Так, при работе с текстами на естественном языке особую эффективность показало использование формального языка регулярных выражений. Таким образом, практический опыт настоящей работы может быть также полезен в подобных проектах по использованию корпусных платформ.
В конечном итоге была произведена настройка платформы Tsakorpus, давшая возможность осуществить поиск по данным корпуса. Одной из нетривиальных задач стало разрешение ситуации, при которой маркировки отклонений от речевого стандарта, охватывающие сразу последовательность словоформ, тем не менее являются репрезентацией единого языкового явления и требуют адекватного представления в поисковой системе.



1. Afanasev I. A corpus-based approach in archaeolinguistics / I. Afanasev // Journal of applied linguistics and lexicography. — 2020. — Vol. 2, no. 2. — P. 147-159.
2. Annotating and exploring code-switching in four corpora of minority languages of Russia / V. Dyachkov, I. Khomchenkova, P. Pleshak, [et al.] // International Conference on Computational Linguistics and Intellectual Technologies" Dialogue. — 2020.
3. Arkhangelskiy T. Web Corpora of Volga-Kama Uralic Languages / T. Arkhangelskiy // Finno-Ugric Languages and Linguistics. — 2020. — Vol. 9, no. 1/2.
4. Arkhangelskiy T. Sound-aligned corpus of Udmurt dialectal texts / T. Arkhangelskiy, E. Georgieva // Proceedings of the Fourth International Workshop on Computational Linguistics of Uralic Languages / ed. by T. A. Piri- nen, M. RieBler, J. Rueter, [et al.]. — Helsinki, Finland : Association for Computational Linguistics, 01/2018. — P. 26-38. — URL: https : // aclanthology.org/W18-0203.
5. Biber D. Corpus linguistics: Investigating language structure and use / D. Biber, S. Conrad, R. Reppen. — Cambridge University Press, 1998.
6. Dereza O. Automatic morphological analysis for Russian: A comparative study / O. Dereza, D. Kayutenko, A. Fenogenova // Proceedings of the International Conference Dialogue. — 2016. — URL: https : //www. dialog- 21.ru/media/3473/dereza.pdf.
7. Johansson S. On the role of corpora in cross-linguistic research / S. Johansson // Corpora and cross-linguistic research. — Brill, 1998. — P. 3-24.
8. Khomchenkova I. A. The corpus of contact-influenced Russian of northern Siberia and the Russian far East 1, 2 / I. A. Khomchenkova, P. S. Ple- shak, N. M. Stoynova // Computational Linguistics and Intellectual Technologies. — Moscow : Papers from the Annual International Conference “Dialogue”, Moscow, Russia, 29 May — 1 June 2019, 2019. — P. 276-287.
9. Leech G. Corpora and theories of linguistic performance / G. Leech // Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82. Vol. 65 / ed. by J. Svartvik. — Berlin/New York : Mouton de Gruyter, 1992. — P. 105-122. — (Trends in Linguistics. Studies and Monographs).
10. Leech G. Corpus annotation schemes / G. Leech // Literary and linguistic computing. — 1993. — Vol. 8, no. 4. — P. 275-281.
11. McEnery T. Corpus linguistics: Method, theory and practice / T. McEnery,
A. Hardie. — Cambridge University Press, 2011.
12. McEnery T. Corpus-based language studies: An advanced resource book / T. McEnery, R. Xiao, Y. Tono. — Taylor & Francis, 2006.
13. Newman J. Corpus Annotation / J. Newman, C. Cox // A Practical Handbook of Corpus Linguistics / ed. by M. Paquot, S. T. Gries. — Cham : Springer International Publishing, 2020. — Chap. 2. P. 25-48.
14. Sinclair J. EAGLES preliminary recommendations on corpus typology / J. Sinclair. — 05/1996. — URL: https : //www . ilc . cnr . it/EAGLES96/ corpustyp/corpustyp.html (visited on 05/22/2024).
15. SpeechReporting Corpus: annotated corpora of West African traditional narratives / E. Aplonova, I. Jordanoska, T. Arkhangelskiy, [et al.] // Proceedings of the Fourth workshop on Resources for African Indigenous Languages (RAIL 2023). — 2023. — P. 26-31...43



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ