Тема: Tsakorpus как поисковая платформа для Корпуса устной речи тюркско-русских билингвов (RuTuBiC)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Лингвистический корпус в компьютерном приближении 8
1.1 Корпусная лингвистика: основные понятия 8
1.2 Принципы разметки и метаразметки Корпуса тюркских-русских билингвов (RuTuBiC) 13
1.2.1 Типологическая характеристика корпуса 13
1.2.2 Принципы разметки и метаразметки корпуса 16
1.3 Tsakorpus — комплекс программных средств для управления
лингвистическими данными 18
1.3.1 Опыт использования Tsakorpus в проектах схожей направленности 21
2 Tsakorpus: интеграция системы разметки и метаразметки .... 26
2.1 Изменения уровневой организации данных 27
2.2 Создание преконвертера для нормализации исходных файлов . 29
2.2.1 Модуль токенизатор: сегментация текста 31
2.2.2 Модуль валидатор: проверка соответствия 33
2.2.3 Модуль конвертер тегов: унификация маркировок ... 36
2.3 Особенности реализации разметки и метаразметки на платформе Tsakorpus 38
2.4 Демонстрация возможностей поиска по корпусу 42
ЗАКЛЮЧЕНИЕ 47
ЛИТЕРАТУРА 54
ПРИЛОЖЕНИЕ A 55
ПРИЛОЖЕНИЕ B 57
📖 Введение
Об актуальности рассматриваемой проблемы свидетельствует неутихающий интерес к современному инструменту исследования языка. На рубеже XX-XXI вв. с развитием научно-технического прогресса и увеличением вычислительной мощности компьютеров лингвистическая наука значительно преобразилась. Так, одним из ведущих прикладных направлений современного языкознания стала корпусная лингвистика, с появлением которой изменился подход к изучению языка и лингвистическим исследованиям: оказалось возможным проверять языковые гипотезы на больших массивах текстовых данных. Корпусная лингвистика позволяет исследовать сложную языковую систему, исходя из реального использования языка носителями, а не только из искусственно созданных лингвистами примеров, которые прежде опирались исключительно на метод интроспекции и лежащую в его основе интуицию исследователя-носителя [34, с. 80]. Кроме того, развитие корпусной лингвистики само способствовало появлению новых теорий языка [22, с. 147] и перенаправило научный вектор, изменив теоретические приоритеты, если не сказать само понимание языка и актуальные задачи его изучения [36]. О роли корпусной лингвистики в процессе смены научной парадигмы и современных исследованиях, в частности, рассуждают в работах И. Ф. Ганиева, В.
А. Плунгян, А. Ю. Мордовин, О. Ю. Гончаровская, К. П. Чилингарян, В. В. Мамонтова, Е. В. Грудева Таким образом, использование корпусных данных в современной лингвистике считается хорошим тоном и иногда даже необходимой практикой: любое серьезное исследование, претендующее на достоверность выносимых суждений о языке, должно привлекать статистически выверенный эмпирический материал на основе концентрированного объема текстов.
В настоящее время корпусная лингвистика находит широкое применение в вопросах лингводидактики, лексикографии. Авторы на основе примеров естественного использования языка, нередко полученных из параллельных корпусов, содержащих переводы исходных текстов на другой язык или языки, предлагают методики обучения иностранным языкам. Здесь можно назвать работы таких исследователей, как П.В. Сысоев, О.В. Нагель, О.В. Заговор- ская, А.А. Кокорева и др. Параллельные корпусы используются и в переводческой практике для нахождения эквивалентов, поскольку они отображают «проблемы передачи различных языковых значений в сопоставляемых языках» [20, с. 105].
С другой стороны, на актуальность работы обращает внимание появление новых технических средств для конструирования языковых корпусов. На сегодняшний день существует немало готовых решений, но все они обладают недостатками разной степени серьезности, так или иначе затрудняющие задачу построения корпуса, который бы одновременно отвечал исследовательским целям и был удобен в работе. В противоположность сказанному, Tsakorpus лишен многих недостатков и обладает рядом неоспоримых преимуществ, на что среди прочего указывает растущая популярность «молодой» платформы Tsakorpus в академической среде: помимо опыта конструирования корпусов самим разработчиком платформы [3; 4], к ней прибегают также многие другие исследователи, тоже работающие с языками малых народов России [2; 8; 35] и не только [1; 15]. Как можно видеть, рассматриваемая нами корпусная платформа, несмотря на свое недавнее появление, уже успела получить внимание исследователей и соответствующие публикации.
Новизна работы заключается в том, что впервые был продемонстрирован процесс адаптации корпуса с нестандартной, комплексной системой разметки и метаразметки. Корпусы, использующие ту же программную платформу, не отличаются, за редким исключением, сложностью разметки; в то же время наш корпус включает в свою разметку множество разнородных параметров вроде маркировки ошибок и дискурсивных характеристик.
Практическая значимость работы состоит в подробном представлении процесса адаптации корпусных данных, определении технологических шагов, разработке и описании принципов работы вспомогательных программ, а также общей конфигурации корпусной платформы, опыт чего может быть применен при создании корпусов, имеющих с настоящим общие методические основания.
Объектом исследования выступает Корпус устной речи тюркско- русских билингвов Южной Сибири (далее — RuTuBiC).
Предмет исследования — инструменты индексирования и поиска данных в корпусе RuTuBiC.
Цель настоящей работы — обеспечить корпус RuTuBiC системой управления и поиска Tsakorpus.
В соответствии с целью были обозначены следующие задачи:
1. Дать общую характеристику корпуса и выделить признаки, релевантные для поисковой системы.
2. Рассмотреть настоящий корпус в сопоставлении с другими исследовательскими корпусами, реализованными на платформе Tsakorpus.
3. Имплементировать систему разметки и метаразметки настоящего корпуса в контексте платформы Tsakorpus
4. Разработать программные средства для адаптации и последующей индексации корпусных данных.
5. Выполнить полную настройку платформы Tsakorpus, отвечающую исследовательским целям.
В настоящей работе используeтся метод корпусной лингвистики, отраженный в ориентации на создание и использование лингвистических корпусов, а также методы автоматической обработки естественного языка, заключающиеся прежде всего в токенизации и (полу)автоматическом морфологическом анализе устного текста.
В процессе работы были задействованы материалы корпуса RuTuBiC, которые на данный момент представляют собой около 500 часов полевых аудиозаписей, из которых в разной степени завершенности размечены 25 часов.
Структуру работы образуют введение, две главы, заключение, список литературы и приложения.
Во введении обоснована актуальность и представлены квалификационные параметры работы: новизна, объект и предмет, цель и задачи, методы исследования.
Первая глава посвящена теоретическому рассмотрению корпусной лингвистики как отдельной научной дисциплины и вписанности проекта RuTuBiC в этот контекст. В главе представлены основные понятия, определена специфика корпуса RuTuBiC, а также обоснован выбор программной платформы и проанализирован опыт ее использования на примере различных исследовательских корпусов.
Во второй главе обсуждается проблема адаптации данных корпуса RuTuBiC к платформе Tsakorpus. В качестве решения этой задачи предлагается процесс предварительной полуавтоматической конвертации и специальный программный инструмент — преконвертер, имеющий трехмодульную структуру. Кроме того, в заключительных разделах фрагментарно показана конфигурация корпусной платформы и демонстрируются ее поисковые возможности.
В заключении подводятся итоги работы.
Список литературы включает 42 источника, которые покрывают вопросы тенденций научного знания с появлением корпусной лингвистики, построения корпусов и проведения исследований с их использованием, проекта RuTuBiC и пр.
В приложении А приведен листинг файла categories.json, использующегося платформой Tsakorpus для сортировки морфологических тегов.
В приложение Б представлен листинг модуля tag_converter.py, входящего в преконвертер.
✅ Заключение
В ходе данного исследования, целью которого было обеспечить Корпус устной речи тюркско-русских билингвов системой управления и поиска Tsakorpus, в первую очередь была дана подробная характеристика самому корпусу, рассмотрена система разметки и метаразметки и выявлены значимые для поисковой системы характеристики. С целью изучения опыта других исследовательских проектов корпус RuTiBiC был рассмотрен в контексте корпусов, тоже использующих платформу Tsakorpus. Наконец, были обозначены преимущества выбранной корпусной платформы относительно других существующих решений: 1) гибкость, кастомизируемость, 2) относительная простота использования, 3) бесплатность и открытый исходный код.
В качестве возможного решения был разработан преконвертер для адаптации данных корпуса и описаны принципы работы входящих в него модулей. Так, при работе с текстами на естественном языке особую эффективность показало использование формального языка регулярных выражений. Таким образом, практический опыт настоящей работы может быть также полезен в подобных проектах по использованию корпусных платформ.
В конечном итоге была произведена настройка платформы Tsakorpus, давшая возможность осуществить поиск по данным корпуса. Одной из нетривиальных задач стало разрешение ситуации, при которой маркировки отклонений от речевого стандарта, охватывающие сразу последовательность словоформ, тем не менее являются репрезентацией единого языкового явления и требуют адекватного представления в поисковой системе.





