Тип работы:
Предмет:
Язык работы:


СИСТЕМА ФОРМАЛИЗОВАННЫХ ПРАВИЛ ОЦЕНКИ КАЧЕСТВА ПЕРЕВОДА (НА МАТЕРИАЛЕ ТЕКСТОВ АННОТАЦИЙ К НАУЧНЫМ СТАТЬЯМ)

Работа №180531

Тип работы

Бакалаврская работа

Предмет

лингвистика

Объем работы48
Год сдачи2018
Стоимость4400 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
6
Не подходит работа?

Узнай цену на написание


Аннотация 3
ВВЕДЕНИЕ 3
ГЛАВА 1. ПОНЯТИЕ ПЕРЕВОДА И КАЧЕСТВА ПЕРЕВОДА В ЛИНГВИСТИЧЕСКОЙ ТЕОРИИ ПЕРЕВОДА 6
ГЛАВА 2. КАЧЕСТВО ПЕРЕВОДА В МАШИННОМ ПЕРЕВОДЕ И СИСТЕМАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА 13
2.1. Неавтоматические методы измерения качества перевода 14
2.2. Автоматические методы измерения качества перевода 16
2.3. Quality estimation framework 17
2.4. Пост-обработка 18
2.5. Связь пост-обработки и классификаций ошибок 19
2.6. Жанрово-дискурсивный аспект проблемы создания текстовой выборки 22
ГЛАВА 3. АПРОБАЦИЯ СИСТЕМЫ 32
ЗАКЛЮЧЕНИЕ 39
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 42


В эпоху глобализации и увеличения межнациональных связей межязыковая коммуникация становится все более актуальной и востребованной, в связи с чем растет потребность людей в переводческих услугах. Данная тенденция сопровождается необходимостью не только в увеличении количества кадров, занятых в сфере перевода, но и в создании специализированного программного обеспечения (а именно, приложений машинного перевода), призванных сделать перевод доступным для рядового пользователя. Большой спрос на услуги перевода в совокупности с неотъемлемой сложностью этого процесса положил начало не только оформлению теории перевода как отдельной, самостоятельной дисциплины, но и длительных многолетних дискуссий относительно того, как стоит понимать качественный перевод. В связи с появлением машинного перевода, теория перевода как дисциплина расширила область своей компетенции, а философия качества перевода приняла новое направление и вместе с ним поставила новые задачи.
Несмотря на актуальность проблемы и многолетнюю историю ее существования, задача определения качественного перевода и разработки алгоритмов выявления степени его качества до сих пор не решена. Исследователи предпринимают множество попыток определить качество перевода и разрабатывают многочисленные подходы к оцениванию текстов. Однако, на наш взгляд, в существующей парадигме исследований мало внимания уделяется возможности совмещения двух подходов - классического теоретического и более формального, восходящего к проблемам машинного перевода. Мы считаем, что создание подобной системы оценки качества перевода может заложить основы в формировании нового подхода, который потенциально может быть использован профессионалами при непосредственном оценивании/корректировке и послужить ориентиром для систем машинного перевода.
Таким образом, наша система оценки качества перевода на базе текстов расширенных аннотаций статей должна быть составлена так, чтобы было возможным учитывать максимально возможный набор лингвистических критериев, выраженный в некотором числовом формате. Процесс построения такой системы будет опираться на несколько основных направлений. Первым направлением, на которое мы обратим свое внимание, будет являться классическая теория перевода. Обращение к теории перевода должно пролить свет на то, как понимается качественный перевод человеком и какие существуют критерии к его определению. Рассмотрев основные положения в рамках данной теории, мы сможем сформировать представление о том, к чему должна стремиться любая система оценки качества перевода. Далее мы обратимся к пониманию качества перевода в сфере машинного перевода, а именно - для создания алгоритма мы обратимся к таксономии ошибок машинного перевода и понятию пост-обработки (post-editing) - меры усилий, необходимой для редактирования перевода. Связав выявленные ошибки со степенью потенциальной нагрузки при редактуре и придав им определенные числовые значения, мы получим суммарный индекс качества текста.
Создание систем оценки качества перевода является одной из передовых областей интереса исследователей в сфере компьютерной обработки естественного языка и теории перевода. Множество конференций, форумов, семинаров и соревнований организуются по всему миру в поисках решения проблем, связанных с автоматической обработкой текста и проблемами машинного перевода. В частности, стоит отметить выделившийся в отдельную самостоятельную ветвь веб-архив конференций и работ по статистическому машинному переводу [URL: http://www.statmt.org/]. Однако гигантом в данной области остается Ассоциация компьютерной лингвистики [URL: http://www.aclweb.org/anthology/], предоставляющая на своем сайте массивную архивную базу статей и обзоров по проблемам компьютерной лингвистики за последние четыре десятилетия. Таким образом, актуальность данной работы обусловлена необходимостью создания единой качественной системы оценки качества и улучшения широко используемых систем машинного перевода.
Предполагается, что система оценки качества, ориентированная на наиболее полный набор лингвистических характеристик, может стать одной из самых успешных систем. Именно поэтому включение в наш алгоритм не только привычных текстовых, синтаксических, грамматических и орфографических, но также и стилевых, и дискурсивных характеристик текстов должно способствовать созданию комплексной системы. Таким образом, новизна данной работы заключается в комплексном и многоуровневом подходе к отбору лингвистических параметров, на которых основывается система, включая дискурсивные и жанровые характеристики материала, обладающие конкретными манифестациями в тексте.
Объектом данного исследования является качество переводного текста, а предметом - лингвистические и дискурсивные критерии качества переводного текста.
Целью данной работы является создание системы оценки качества перевода, опирающейся на классификацию ошибок с последующим выведением индекса качества. Чтобы добиться такого результата, нужно выполнить ряд задач:
1) изучить основные положения теории перевода, чтобы выделить идеи, лежащие в основе определения качества перевода;
2) составить обзор основных систем и инструментов оценки качества перевода в сфере машинного перевода с целью извлечения необходимых для анализа качества параметров текста;
3) создать наиболее полную классификацию ошибок, включая жанровые и дискурсивные характеристики отобранных текстов и их формальные (числовые) эквиваленты;
4) создать рейтинговую систему ошибок на основании степени корреляции типов ошибок с индикаторами трудоемкости пост-обработки;
5) апробировать отобранную систему правил на материале текстов аннотаций и их переводов и присвоить им индекс качества.
Материалами данного исследования являются тексты пяти расширенных аннотаций к статьям общенаучного Вестника ТГУ за 2014-2015 год на русском языке объемом от 343 до 511 слов и их переводы на английский язык, выполненные авторами статей, а также исправленные редактором варианты перевода, не являющиеся рерайтингом (под рерайтингом мы понимаем такую стратегию перевода, которая заключается в создании текста на языке перевода на основе текста оригинала. При рерайтинге не происходит попытки подстроить текст оригинала под нормы языка перевода, текст заново создается соответственно этим нормам).
Теоретическая значимость данного исследования заключается в специфике системы оценки качества перевода, а именно в попытке расширить классификацию ошибок типами жанровых и дискурсивных несоответствий и объединить данную классификацию с данными о пост-обработке.
Практическая значимость заключается в возможности применить разработки данного исследования преподавателями иностранных языков для оценки качества перевода студентов, а также для модификации автоматических систем оценки качества перевода.
В процессе работы нами использовался гипотетико-дедуктивный метод/ описательный метод (метод классификации), сопоставительный анализ перевода, метод альтернатив (метод решения научных проблем путем сопоставления и взаимной критики конкурирующих между собой теорий), метод шкалирования, лингвостилистический метод, контент-анализ, анализ текста.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате обзора основных инструментов и подходов к оценке качества перевода как в лингвистической теории перевода, так и в сфере машинного перевода, нами были выявлены наиболее, на наш взгляд, слабые места данных подходов, что привело нас к построению системы оценки качества перевода в существующем виде. Мы предприняли попытку компенсировать выявленные нами недочеты, используя классификацию ошибок, включающую дискурсивные и жанровые несоответствия. Каждой ошибке был присвоен коэффициент на основе корреляции с индикаторами пост-обработки, задействованными уровнями языка или текста. По итогам апробации системы нами была выведена формула подсчета индекса качества, учитывающая коэффициенты серьезности ошибок, длину отрезков текста, находящихся под влиянием ошибки, и объем текста. Был подсчитан индекс качества для пяти аннотаций.
Данная система обладает рядом перспектив для улучшения, и ее разработка позволила сделать несколько выводов:
1) На данном этапе наша классификация ошибок лишь частично основывается на показателях корреляции с мерами пост-обработки, поскольку существует единичное количество работ, исследующих связь типов ошибок с мерами усилий при обработке, и ни одна из них не дает информацию о связи всех типов ошибок со всеми типами индикаторов. Данная проблема касается не только ошибок уровня ниже дискурсивного. В подобных исследованиях жанровая специфика не учитывается, а дискурсивная редуцируется до логических или структурных ошибок. Связь дискурсивных/жанровых несоответствий, требующих исправления, со степенью их влияния на индикаторы пост-обработки должна быть, на наш взгляд, изучена. Изменения в этом поле исследований должны в будущем помочь создать более качественные классификации, где рейтинг будет полностью основан на числовых данных;
2) Механизм подсчета оценки должен быть более чувствительным к таким параметрам как область ошибки, длина текста, индикаторы усилий пост-обработки. Мы считаем, что умножение коэффициента ошибки на длину соответствующей ей области и деление суммарного индекса ошибок текста на количество слов действительно приближает нас к числовому выражению усилий пост-обработки, но в качестве шага вперед эта формула может/должна использовать числовое значение эффекта влияния типа ошибки на индикаторы пост-обработки (эффекты, подобные полученным в статье Дж. Дэмса);
3) В качестве одного из возможных способов улучшений формулы подсчета индекса качества и коэффициентов ошибок, а также в качестве решения проблемы, обозначенной в пункте 2, мы считаем возможным проведение эксперимента, подобного эксперименту в работе М. Денковски . Исследователь разработал принцип оптимизации машинного перевода, опирающийся на принцип онлайн-адаптирования системы при помощи данных пост-обработки. Данные о редактировании текста (типах ошибок, проблемных местах текстов) способствуют обучению системы машинного перевода таким образом, чтобы при каждом следующем использовании данная информация учитывалась системой и модифицировала результат в соответствии с ней. Особенно важным для нас является то, что данная система попутно определяет наиболее «дорогостоящие» ошибки перевода с целью последующего избегания этих ошибок. Подход, описанный в работе Денковски, мог бы позволить определить серьезность дискурсивных жанровых несоответствий, а также избавить систему от возможных наложений типов ошибок и «перенасыщения» при подсчете итогового индекса.
4) Для проверки жизнеспособности любой системы оценки качества перевода необходимо разработать контрольную группу текстов, требующих наименьшего, среднего, наибольшего количества усилий для обработки (с соответствующей системой критериев для отнесения текстов контрольной группы к ним), основываясь на результатах анализа которой можно получить сравнительные данные о работе системы. Так как выборка текстов, используемая нами в данной работе, целиком состояла из текстов, требующих большого количества усилий, мы не обладаем сравнительными данными о работе системы;
5) Для построения системы, основанной на классификации ошибок, важно помнить, что ошибки могут варьироваться от жанра к жанру и от тематики к тематике. Именно поэтому для того, чтобы создать обширную и универсальную классификацию, необходимо сначала выявить специфику определенных жанров и тематик, выявить их отличительные характеристики, после чего переходить к этапу обобщения. Пока в лингвистике не достигнут консенсус относительно разграничения определенных дискурсов/жанров или, реже, тематик, выявление критериев для создания четкой классификации ошибок будет затруднено. Именно поэтому мы считаем, что как минимум в рамках данного жанра наша классификация имеет большой потенциал относительно точности получаемой оценки;
6) Ошибки на уровнях ниже дискурсивного легко отследить, особенно если перевод практически дословный, как было в нашем случае. Избежать большинства этих ошибок не составит проблем, если переводчик хорошо знаком с грамматикой, синтаксисом и правилами сочетаемости языка перевода. Их исправления зачастую требуют изменения лишь некоторых элементов, не выходящих за рамки предложения. Однако перевод во многом зависит от дискурсивной и жанровой специфики. Несоответствия жанровых и дискурсивных особенностей требованиям языка перевода зачастую распространяются на весь текст и требуют глобальных изменений. Перевод текстов научного дискурса особенно чувствителен к проблемам подобного рода, поскольку он регламентирован и стандартизирован в большей мере, чем многие другие дискурсы.
Проблема качества перевода на данный момент является одной из самых важных в лингвистике. Подобные проблемы требуют глобальных решений, что, на наш взгляд, подразумевает учет особенностей всех уровней языка и глобального контекста, в котором язык находит проявление. Именно поэтому перевод в традиционном его понимании не всегда может удовлетворять потребностям конечного пользователя и нормам его языка или культуры. Мы полагаем, что в большинстве случаев идеальным переводом следует считать такой перевод, который предполагает создание текста с нуля на языке перевода, рождение текста в контексте/среде требуемого языка или культуры. Стратегией, удовлетворяющей подобным требованиям, является стратегия рерайтинга, однако зачастую переводчики не следуют этой стратегии по тем или иным причинам (тем более не может идти речи о возможности следования этой стратегии машиной). Последствия отказа от такой стратегии можно наблюдать в качестве побочного, но не менее интересного результата данного исследования


1) Азимов Э. Г. Новый словарь методических терминов и понятий (теория и практика обучения языкам) / Э.Г. Азимов, А.Н. Щукин - М.: ИКАР, 2009. - 193 с.
2) Комарова 3. И. Методология, метод, методика и технология научных исследований в лингвистике: учебное пособие [Электронный ресурс] / З.И. Комарова. - Екатеринбург: Изд- во Ур-ФУ, 2012. - Электрон. версия печат. публ. - С. 360. - URL: https://www.twirpx.com/file/1224946/ (дата обращения: 04.03.2018).
3) Нелюбин Л.Л. Толковый переводоведческий словарь / Л.Л. Нелюбин. — 3-е изд., перераб. — М.: Флинта: Наука, 2003. - 320 с.
4) Afros E. Promotional Metadiscourse in Research Articles. Master’s thesis [Electronic resource] / E. Afros. - Waterloo, 2007. - 129 p. - Electronic version of a printed publication. - URL: https://uwspace.uwaterloo.ca/bitstream/handle/10012/3278/M.A.%20Thesis_Complete.pdf?sequenc e=1 (access date: 29.03.2018).
5) Angelelli C. V. Using a rubric to assess translation ability: Defining the construct // Testing and Assessment in Translation and Interpreting Studies. A call for dialogue between research and practice: Vol. XIV / ed. by Claudia V. Angelelli, Holly E. Jacobson. - Amsterdam/Philadelphia: John Benjamins Publishing Company, 2009. - P 13 - 47.
6) Bondi M. Linguistic insights Vol. 187. Abstracts in Academic Discourse: variation and change / M. Bondi, R. Lores Sanz (ed.). - Bern.: Peter Lang, 2014. - 362 p.
7) Busch-Lauer Ines-A. Abstracts: Cross-Linguistic, Disciplinary and Intercultural Perspectives // Linguistic insights Vol. 187. Abstracts in Academic Discourse: variation and change. - Bern.: Peter Lang, 2014. - P. 43 - 63.
8) Callison- Burch C. (Meta-) evaluation of machine translation / C. Callison- Burch et al. // Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic, June 23 - 23, 2007. - Stroudsburg, 2007. - P. 136-158.
9) Costa A. A linguistically motivated taxonomy for Machine Translation error analysis [Electronic resource] / A. Costa et al. // Machine Translation. - 2015. - Vol. 29, № 2. - P. 127 - 161. - Electronic version of a printed publication. - URL: http://www.mesc- id.pt/publications/11119/pdf (access date: 25.04.2018).
10) Daems J. The Impact of Machine Translation Error Types on Post-Editing Effort Indicators / J. Daems et al. // Proceedings of 4th Workshop on Post-Editing Technology and Practice. Miami, November 3, 2015. - Miami, 2015. - P. 31 - 45.
11) Denkowski M. Machine Translation for Human Translators [Electronic resource] / M.
Denkowski. - Carnegie Mellon University, 2015. - 97 p. - Electronic version of a printed publication. - URL:
https://www.lti.cs.cmu.edu/sites/default/files/research/thesis/2015/michael_denkowski_machine_tra nslation_for_human_translators.pdf (access date: 24.05.2018).
12) Duszak A. Culture and Styles of Academic Discourse / A. Duszak (ed.). - Berlin, N.Y.: Mouton De Gruyter, 1997. - 362 p.
13) Flowerdew J. Academic Discourse / J. Flowerdew. - L., N.Y.: Routledge Taylor & Francis Group, 2013. - 341 p.
14) Guzman, F. Using discourse structures improves machine translation evaluation / F. Guzman et al. // Proceedings of the 52nd Annual Meeting of the Association for Computational. Baltimore, Maryland, June 23-25, 2014. - Maryland, 2014. - P. 687 - 698.
15) Hardmeier C. Discourse in statistical machine translation: A survey and a case study [Electronic resource] // Discours: Revue de linguistique, psycholinguistique et informatique. - 2015. - №11. - URL: https://discours.revues.org/8726 (access date: 26.04.2018).
...35


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ