Тема: МЕТОДЫ РАСПОЗНАВАНИЯ ОСНОВЫ СЛОВА В МАШИННОМ ПЕРЕВОДЕ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1. ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА 6
1.1 Обработка естественного языка: понятие и основные задачи 6
1.2 Машинный перевод как одна из задач обработки естественного языка
1.2.1 Машинный перевод на базе лингвистических правил 14
1.2.2 Статистический машинный перевод 17
1.2.3 Нейронный машинный перевод. 21
Выводы по главе 1 25
ГЛАВА 2. ЭТАПЫ ОБРАБОТКИ ТЕКСТОВ В МАШИННОМ 27
ПЕРЕВОДЕ
2.1 Классическая поэтапная обработка текстов 27
2.2 Регулярные выражения. 30
2.2.1 Основные шаблоны и функции 30
2.2.2 Группы регулярных выражений 35
2.3. Нормализация текста. Стемминг и лемматизация 37
Выводы по главе 2 58
ЗАКЛЮЧЕНИЕ 59
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 61
ПРИЛОЖЕНИЕ
📖 Введение
В данной работе рассматривается один из важнейших этапов обработки текста - определение основы слова в машинном переводе, точнее два метода их определения: стемминг и лемматизация.
Актуальность выбранной темы дипломной работы обусловлена постоянным развитием искусственного интеллекта и необходимостью улучшать понимание и обработку естественных языков. Одним из основных свойств естественных языков является их эволютивность, т.е. способность к бесконечному развитию и модификации. Исходя из этого: все что связано с естественными языками является бесконечно-развивающимся процессом - прослеживается необходимость адаптировать искусственные технологии на постоянно изменяющийся процесс.
Предмет исследования: два метода определения основы слова в машинном переводе: стемминг и лемматизация.
Объект исследования: лексические базы для стемминга: Porter Stemmer, Lancaster Stemmer и Snowball Stemmer; лексические базы для лемматизации: WordNetLemmatizer и TextBlob.
Теоретической основой исследования служили научные труды ученых-лингвистов и программистов, посвященные обработке естественного языка и машинному переводу.
Цель представленной работы: оценить качество двух представленных методов - стемминга и лемматизации, сравнить и доказать, что они компенсируют друг друга.
Для выполнения цели важно выполнить следующие задачи:
1) выяснить на чем основываются стемминг и лемматизация;
2) изложить различия и недостатки стемминга и лемматизации;
3) объяснить причины возникновения неправильного определения или не распознавания основы слова представленными методами и предоставить методы улучшения их качества;
4) сравнить лексические базы стемминга (Porter Stemmer и Lancaster Stemmer) между собой;
5) сравнить лексические базы лемматизации (WordNetLemmatizer и TextBlob) между собой;
6) сравнить стемминг и лемматизацию (Porter Stemmer и WordNetLemmatizer) между собой.
В работе также рассматривается обработка естественного языка, машинный перевод, как одна из важных задач обработки естественного языка, и три его основных подхода, не считая их гибридных форм: 1) машинный перевод на базе лингвистических данных, 2) статистический машинный перевод и 3) нейронный машинный перевод.
В дипломной работе широко используются такие методы исследования, как теоретический анализ и синтез (рассматривается изучаемый объект по частям и после объединяется), изучение научных работ, сравнение, классификация, моделирование (шаблоны на практическую часть).
Практическая значимость исследования заключается в сравнении лемматизации и стемминга с определенными пакетами (WordNetLemmatizer, TextBlob, PorterStemmer, LancasterStemmer и SnowballStemmer) и их эффективности.
База исследования: язык программирования Python.
Гипотезы:
1) лемматизация и стемминг имеют свои недостатки, но способны компенсировать друг друга
2) результат определения базовой формы слова зависит от используемой лексической базы.
✅ Заключение
Этапы обработки текстов позволяют выполнить задачи ОЕЯ. В теоретической части данной работы рассмотрено появление, развитие и постепенное улучшение качества машинного перевода во всех аспектах (эффективности, скорости, требуемых ресурсах, адекватности перевода), что отражается в развитии трех основных подходов: машинный перевод на базе лингвистических правил, статистический и нейронный машинный перевод.
Каждый подход доминировал в свою “эпоху” пока не появлялся более эффективный метод, к примеру машинный перевод на базе лингвистических правил был преобладающей системой вплоть до 1990 -х, пока не появились параллельные корпуса, что способствовало развитию статистического машинного перевода.
Как было выявлено ранее, у каждого подхода есть как свои сильные стороны, так и недостатки в выполнении конкретных задач - именно поэтому некоторые компании предпочитают использовать гибридные системы, например, Яндекс Переводчик, использует нейронный и статистический подходы. Создание “идеального” подхода является трудной и почти недосягаемой задачей, в первую очередь из -за постепенных изменений языковых форм и языка в целом. Таким образом, машинный перевод представляет собой бесконечно изменяющий и развивающийся процесс, а с развитием машинного перевода и других технологий - NLP стала одной из самых важных технологий искусственного интеллекта.
Определение основы слова в машинном переводе касается автоматического анализа словоформ текста, перевода слов из естественного языка в “свой”, для дальнейшего синтеза текста.
В практической части показан принцип работы определения основы слова системой такими алгоритмами, как стемминг и лемматизация. Алгоритмы рассмотрены в языке программирования Python с разными библиотеками. В ходе проведенной работы было выявлено, что:
1) стемминг и лемматизация основаны на регулярных выражениях. Регулярные выражения широко используется языками программирования для проведения анализа и синтеза текстов, перевода языков в язык, позволяющий системам понимать естественные языки;
2) многое зависит от лексической базы, начиная от принципа ввода команд и заканчивая результатом определения основы слова, что подтверждает гипотезу №2;
3) стемминг и лемматизация имеют свои недостатки - избыточность и недостаточность, неправильное определение основы слова или даже опущение определения основы слова. Но данные алгоритмы компенсируют недостатки друг друга: стемминг эффективен в “легких” случаях определения, где можно срезать аффиксы по шаблону (cats= cat-s) - лемматизация принимает результат данного процесса т.к. слово находится в словаре. Но в случаях с видоизменённым корнем в словоформе, например, wolves -wolf - стеммер отрежет -es тем самым определив основу wolv, но это не является словарной формой слова и, поэтому, лемматизатор сравнив слово в словаре лексем приводит его к основе wolf (именительному падежу, единственному числу). Гипотеза №1 подтверждается;
4) для улучшения качества определения основы слова используются дополнительные параметры и/или команды, например, PoS-теги.



