Тема: Применение методов анализа данных для задачи классификации русско- и англоязычных литературных текстов (в среде R)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. ПОСТАНОВКА ЗАДАЧИ 8
2. КОНЦЕПЦИЯ ПРЕДЛАГАЕМОГО ПОДХОДА К РЕШЕНИЮ ЗАДАЧИ ... 9
2.1 Определение авторства текста как задача машинного обучения 9
2.2 Описание задачи классификации текстов 9
2.3 Формальная постановка задачи 11
2.4 Корпус текстов (данных для исследования) 11
2.5 Иллюстрация предлагаемого подхода к решению задачи определения
авторства на примере стихов И.Бродского 13
2.6 Длина строки как характеристика поэтического текста 14
2.7 Классификация текстов одного автора 14
3. ВЫБОР СРЕДСТВ РЕАЛИЗАЦИИ 17
3.1 Выбор языка программирования и среды разработки 17
3.2 Используемые пакеты 18
4. РЕАЛИЗАЦИЯ АЛГОРИТМОВ В СРЕДЕ R 18
4.1 Анализ произведений отечественных авторов 18
4.1.1. Классификация произведений русскоязычных поэтов на языке оригинала 18
4.1.1.1. Сравнение методов и выбор наиболее точного из них 24
4.1.2. Классификация произведений отечественных поэтов в переводе на
английский язык 25
4.2 Анализ произведений иностранных авторов 30
4.2.1. Определение авторства произведений англоязычных авторов на
языке оригинала 30
4.2.2. Определение авторства произведений англоязычных поэтов в
переводе на русский язык 33
4.3 Классификация произведений по средней длине строки 37
4.4 Классификация произведений одного автора 38
ЗАКЛЮЧЕНИЕ 40
СПИСОК ЛИТЕРАТУРЫ 41
ПРИЛОЖЕНИЕ 1 - СПИСОК ПРОИЗВЕДЕНИЙ ДЛЯ АНАЛИЗА 43
ПРИЛОЖЕНИЕ 2 - ЛИСТИНГ ПРОГРАММЫ 54
📖 Введение
Можно выделить несколько классов задач прикладной лингвистики - в первую очередь, это задачи перевода текстов (с одного языка на другой) и задачи атрибуции текстов, т.е. установления авторства и/или других характеристик текста, например, времени его написания. Можно говорить и о «гибридной» задаче - если речь идёт, например, об установлении авторства (оценке «узнаваемости» автора) после перевода произведений на иностранный язык).
Прежде, чем сформулировать конкретную постановку задачу, приведём необходимые сведения из переводоведения, рассмотрим современные подходы к автоматизации процесса перевода текстов с одного естественного языка на другой, остановимся на особенностях переводов поэтических текстов и обсудим возможности применения машинного обучения к решению задач прикладной лингвистики.
Существуют два принципиально разных типа алгоритмов машинного перевода - они основаны на двух принципиально разных подходах:
• Первый подход, более традиционный, называется ru/e-based(aнгл.:ru/e - правило,base - основа), т.е. буквально - «основанный на правилах». Он состоит в том, чтобы использовать заданные словари и правила построения предложения. Этот принцип, в частности, заложен в основу широко используемой в России системы автоматизированного перевода ПРОМТ.
• Второй подход, сравнительно новый, можно назвать статистическим (англ.: statistical-based). Он основан на сравнении больших объёмов языковых пар из двуязычной совокупности текстов, т.е. текстов, содержащих предложения на одном языке и соответствующие им предложения на втором. Использование статистического подхода к переводу позволяет алгоритмам «самообучатъся», что открывает широкие возможности для применения методов машинного обучения. Статистический подход используется некоторыми популярными Интернет-сервисами - переводчиками, в частности, Google.Переводчик [2], Яндекс.Переводчик [3], а также новый сервис от ABBYY [4].
Остановимся теперь на вопросах перевода поэтического текста - на его отличии от перевода прозы и на принципах, позволяющих оценивать перевод стихотворного текста.
Традиционно переводоведение относится к компаративным (англ.: to compare - сравнивать) наукам: оценить качество перевода и использованную переводческую стратегию можно лишь путем сравнительного анализа текстов оригинала и перевода, а также языков, на которых они написаны.
Существует мнение, что поэтический перевод невозможен вовсе. Однако, как отмечает Б.Л.Бархударов, «в любом тексте, в том числе и в поэтическом, элементы подчинены целому, и невозможность найти иноязычный эквивалент какому-либо из элементов исходного текста не означает невозможности воссоздания всего текста как определенного структурно-семантического единства средствами другого языка» [5].
Поэтический текст, в отличие от прозаического, связан четкой метрикой:
ритмом, рифмой. Метрическая структура текста накладывается на план содержания. Очевидно, при переводе поэтического текста приходится жертвовать либо формой, либо содержанием. Обычно, как отмечает Ю.Найда, в жертву приносят форму текста. При этом лирическое стихотворение, переведенное прозой, не является полным эквивалентом оригинала [6]. По мнению С.Ф. Гончаренко, информация в поэтическом тексте может быть разделена на два вида: смысловую и эстетическую. Смысловая информация - это отражение в сознании реципиента описанной референтной ситуации [7]. Эстетическая информация, содержащаяся в поэтическом тексте, оказывается важнее: сюда входит эмоциональный пласт, заключенный в стихе - эмоции, переживания, чувствования - то, ради чего и создается подобный текст. Благодаря сочетанию всех видов информации и появляется поэтический текст, в котором слова могут означать свою противоположность, смысловая нагрузка может быть вынесена за скобки, а ритмика может играть роль, превалирующую над собственно содержанием. Именно это и вызывает трудности при поэтическом переводе.
В соответствии с вышесказанным, поэтический перевод можно определить как форму межкультурной коммуникации, при которой поэтический текст, созданный на исходном языке, передается с помощью поэтического текста на переводящем языке. Соответственно, удачным поэтическим переводом можно считать создание нового поэтического текста, эквивалентного оригиналу по его фактической и эстетической информации. Разумеется, полная передача всей информации невозможна, поэтому переводчику приходится жертвовать тем или иным ее аспектом. При переводе следует руководствоваться доминирующим типом или подтипом информации, стремиться воспроизвести именно его, иногда даже принося в жертву другие типы информации.
Потеря информации, неизбежная при переводе, особенно - при переводе художественного текста, и тем более - текста поэтического, сильно усложняет задачу определения его авторства. Этой проблеме частично посвящена данная работа. Помимо этого, будут рассмотрены иные возможности анализа данных (в среде R) для классификации поэтических текстов.
✅ Заключение
• задача определения авторства стихотворных произведений допускает постановку в виде задачи классификации и, как следствие, допускает применение методов машинного обучения - при этом на «входе» могут использоваться как тексты на языке оригинала, так и переводные версии текстов;
• в качестве признака для классификации возможно использование частотного распределения словаря автора;
• наиболее точные результаты были получены при использовании наивного байесовского классификатора:
- наивный байесовский классификатор - точность 88%
- метод опорных векторов -точность 62%
- метод k-ближайших соседей - точность 34%;
• точность решения задачи существенно выше при использовании оригинальных текстов (чем при использовании переводов);
• для классификации поэтических текстов возможно использование длины строк в качестве признака;
• классификация произведений одного автора с использованием в качестве «метрики» частотного распределения словаря автора оказалась невозможной.



