Тип работы:
Предмет:
Язык работы:


Применение методов анализа данных для задачи классификации русско- и англоязычных литературных текстов (в среде R)

Работа №52190

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы66
Год сдачи2017
Стоимость4930 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
381
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
1. ПОСТАНОВКА ЗАДАЧИ 8
2. КОНЦЕПЦИЯ ПРЕДЛАГАЕМОГО ПОДХОДА К РЕШЕНИЮ ЗАДАЧИ ... 9
2.1 Определение авторства текста как задача машинного обучения 9
2.2 Описание задачи классификации текстов 9
2.3 Формальная постановка задачи 11
2.4 Корпус текстов (данных для исследования) 11
2.5 Иллюстрация предлагаемого подхода к решению задачи определения
авторства на примере стихов И.Бродского 13
2.6 Длина строки как характеристика поэтического текста 14
2.7 Классификация текстов одного автора 14
3. ВЫБОР СРЕДСТВ РЕАЛИЗАЦИИ 17
3.1 Выбор языка программирования и среды разработки 17
3.2 Используемые пакеты 18
4. РЕАЛИЗАЦИЯ АЛГОРИТМОВ В СРЕДЕ R 18
4.1 Анализ произведений отечественных авторов 18
4.1.1. Классификация произведений русскоязычных поэтов на языке оригинала 18
4.1.1.1. Сравнение методов и выбор наиболее точного из них 24
4.1.2. Классификация произведений отечественных поэтов в переводе на
английский язык 25
4.2 Анализ произведений иностранных авторов 30
4.2.1. Определение авторства произведений англоязычных авторов на
языке оригинала 30
4.2.2. Определение авторства произведений англоязычных поэтов в
переводе на русский язык 33
4.3 Классификация произведений по средней длине строки 37
4.4 Классификация произведений одного автора 38
ЗАКЛЮЧЕНИЕ 40
СПИСОК ЛИТЕРАТУРЫ 41
ПРИЛОЖЕНИЕ 1 - СПИСОК ПРОИЗВЕДЕНИЙ ДЛЯ АНАЛИЗА 43
ПРИЛОЖЕНИЕ 2 - ЛИСТИНГ ПРОГРАММЫ 54

Одной из современных тенденций развития прикладной науки является математизация и автоматизация (полная или частичная) самых разных сфер деятельности человека. Математические методы и основанные на них компьютерные программы находят своё применение во всё более широком спектре практических задач, в том числе и в таких сферах, которые традиционно считались гуманитарными. К числу последних можно отнести, например, задачи языкознания, прикладной лингвистики.
Можно выделить несколько классов задач прикладной лингвистики - в первую очередь, это задачи перевода текстов (с одного языка на другой) и задачи атрибуции текстов, т.е. установления авторства и/или других характеристик текста, например, времени его написания. Можно говорить и о «гибридной» задаче - если речь идёт, например, об установлении авторства (оценке «узнаваемости» автора) после перевода произведений на иностранный язык).
Прежде, чем сформулировать конкретную постановку задачу, приведём необходимые сведения из переводоведения, рассмотрим современные подходы к автоматизации процесса перевода текстов с одного естественного языка на другой, остановимся на особенностях переводов поэтических текстов и обсудим возможности применения машинного обучения к решению задач прикладной лингвистики.
Существуют два принципиально разных типа алгоритмов машинного перевода - они основаны на двух принципиально разных подходах:
• Первый подход, более традиционный, называется ru/e-based(aнгл.:ru/e - правило,base - основа), т.е. буквально - «основанный на правилах». Он состоит в том, чтобы использовать заданные словари и правила построения предложения. Этот принцип, в частности, заложен в основу широко используемой в России системы автоматизированного перевода ПРОМТ.
• Второй подход, сравнительно новый, можно назвать статистическим (англ.: statistical-based). Он основан на сравнении больших объёмов языковых пар из двуязычной совокупности текстов, т.е. текстов, содержащих предложения на одном языке и соответствующие им предложения на втором. Использование статистического подхода к переводу позволяет алгоритмам «самообучатъся», что открывает широкие возможности для применения методов машинного обучения. Статистический подход используется некоторыми популярными Интернет-сервисами - переводчиками, в частности, Google.Переводчик [2], Яндекс.Переводчик [3], а также новый сервис от ABBYY [4].
Остановимся теперь на вопросах перевода поэтического текста - на его отличии от перевода прозы и на принципах, позволяющих оценивать перевод стихотворного текста.
Традиционно переводоведение относится к компаративным (англ.: to compare - сравнивать) наукам: оценить качество перевода и использованную переводческую стратегию можно лишь путем сравнительного анализа текстов оригинала и перевода, а также языков, на которых они написаны.
Существует мнение, что поэтический перевод невозможен вовсе. Однако, как отмечает Б.Л.Бархударов, «в любом тексте, в том числе и в поэтическом, элементы подчинены целому, и невозможность найти иноязычный эквивалент какому-либо из элементов исходного текста не означает невозможности воссоздания всего текста как определенного структурно-семантического единства средствами другого языка» [5].
Поэтический текст, в отличие от прозаического, связан четкой метрикой:
ритмом, рифмой. Метрическая структура текста накладывается на план содержания. Очевидно, при переводе поэтического текста приходится жертвовать либо формой, либо содержанием. Обычно, как отмечает Ю.Найда, в жертву приносят форму текста. При этом лирическое стихотворение, переведенное прозой, не является полным эквивалентом оригинала [6]. По мнению С.Ф. Гончаренко, информация в поэтическом тексте может быть разделена на два вида: смысловую и эстетическую. Смысловая информация - это отражение в сознании реципиента описанной референтной ситуации [7]. Эстетическая информация, содержащаяся в поэтическом тексте, оказывается важнее: сюда входит эмоциональный пласт, заключенный в стихе - эмоции, переживания, чувствования - то, ради чего и создается подобный текст. Благодаря сочетанию всех видов информации и появляется поэтический текст, в котором слова могут означать свою противоположность, смысловая нагрузка может быть вынесена за скобки, а ритмика может играть роль, превалирующую над собственно содержанием. Именно это и вызывает трудности при поэтическом переводе.
В соответствии с вышесказанным, поэтический перевод можно определить как форму межкультурной коммуникации, при которой поэтический текст, созданный на исходном языке, передается с помощью поэтического текста на переводящем языке. Соответственно, удачным поэтическим переводом можно считать создание нового поэтического текста, эквивалентного оригиналу по его фактической и эстетической информации. Разумеется, полная передача всей информации невозможна, поэтому переводчику приходится жертвовать тем или иным ее аспектом. При переводе следует руководствоваться доминирующим типом или подтипом информации, стремиться воспроизвести именно его, иногда даже принося в жертву другие типы информации.
Потеря информации, неизбежная при переводе, особенно - при переводе художественного текста, и тем более - текста поэтического, сильно усложняет задачу определения его авторства. Этой проблеме частично посвящена данная работа. Помимо этого, будут рассмотрены иные возможности анализа данных (в среде R) для классификации поэтических текстов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


На основе полученных результатов можно сделать следующие выводы:
• задача определения авторства стихотворных произведений допускает постановку в виде задачи классификации и, как следствие, допускает применение методов машинного обучения - при этом на «входе» могут использоваться как тексты на языке оригинала, так и переводные версии текстов;
• в качестве признака для классификации возможно использование частотного распределения словаря автора;
• наиболее точные результаты были получены при использовании наивного байесовского классификатора:
- наивный байесовский классификатор - точность 88%
- метод опорных векторов -точность 62%
- метод k-ближайших соседей - точность 34%;
• точность решения задачи существенно выше при использовании оригинальных текстов (чем при использовании переводов);
• для классификации поэтических текстов возможно использование длины строк в качестве признака;
• классификация произведений одного автора с использованием в качестве «метрики» частотного распределения словаря автора оказалась невозможной.



1. http://www.promt.ru - сайт разработчиков решений для автоматизированного перевода.
2. https://translate.google.com/ - веб-служба компании Google, предназначенная для автоматического перевода текста.
3. https://translate.yandex.ru - веб-служба компании Яндекс, предназначенная для автоматического перевода текста.
4. https://www.lingvolive.com/ru-ru - онлайн-словарь ABBYY Lingvo.
5. Бархударов, Л.С. Некоторые проблемы перевода английской поэзии на русский язык // Тетради переводчика— М.: Высшая Школа, 1984, вып.21. — 124 с.
6. Найда, Ю.К. Науке переводить. // Вопросы теории перевода в зарубежной лингвистике/ Ю.К. Найда — М.: Международные отношения, 1978. — 257 c.
7. http://samlib.ru/w/wagapow a s/poetic-transl.shtml - Гончаренко С.В. Поэтический перевод и перевод поэзии: константы и вариативность.
8. Барсегян, А. Анализ данных и процессов/ А.Барсегян - СПб.: БХВ- Петербург, 2009. - 512 c.
9. Patera, T. A concordance to the poetry of Joseph Brodsky/ T.Patera - Lewiston [N.Y.] : Edwin Mellen Press, 2003. - 427 c.
10. Patera, T. A concordance to the poetry of Anna Akhmatova/ T.Patera - Ardis, 1995. - 427 c.
11. Колесников, Н.П. Словарь неологизмов В.В.Маяковского - Тбилиси, 1991. - 112 с.
12. Коваленко, С.А. Анна Ахматова / С.А. Коваленко - М : Молодая гвардия, 2009. — 347 с.
13. Горбачев, А.Ю. Серебряные трубы поэтессы: становление таланта Анны Ахматовой// Фокус: научно-популярный журнал, 2010. - 30 с.
14. Горбачев, А.Ю. Творческая судьба Анны Ахматовой // Русский язык и литература, 2011 - 42 с.
15. http://progopedia.ru/language/r/ - Свободная энциклопедия языков программирования.
16. http: //www.machinelearning.ru/ - Профессиональный
информационно-аналитический ресурс, посвященный машинному обучению, распознаванию объектов и интеллектуальному анализу данных.
17. Бузикашвили, Н.Е. N-граммы в лингвистике / Н.Е. Бузикашвили, Г.А. Крылова, Д.В. Самойлов // Методы и средства работы с документами. М. : Диториал УРРС, 2000. - 130 с.
18. Васюков, Н.С. Модели определения авторства текста / Н.С. Васюков, Р.В. Мещеряков // Измерения, автоматизация и моделирование в промышленности и научных исследованиях: Межвузовский сборник. — Барнаул : Изд-во АлтГУ, 2005.- 29 с.
19. Головань, О.В. Частотный анализ как первый шаг в построении интеллектуальной системы исследования текста / О.В. Головань // Ползуновский альманах. 2008. №2. - 155 с.
20. Кукушкина, О.В. Определение авторства текста с использованием буквенной и грамматической информации / О.В. Кукушкина, А.А. Поликарпов, Д.В.Хмелев // Проблемы передачи информации. 2001. Т.37. - Вып.2. - 109 с.
21. Шевелев, О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие / О.Г. Шевелев. — Томск: TMJI-Пресс,2007. - 144 с.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ