Тип работы:
Предмет:
Язык работы:


МЕТОДЫ РАСПОЗНАВАНИЯ ОСНОВЫ СЛОВА В МАШИННОМ ПЕРЕВОДЕ

Работа №71646

Тип работы

Бакалаврская работа

Предмет

лингвистика

Объем работы64
Год сдачи2020
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
213
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
ГЛАВА 1. ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА 6
1.1 Обработка естественного языка: понятие и основные задачи 6
1.2 Машинный перевод как одна из задач обработки естественного языка
1.2.1 Машинный перевод на базе лингвистических правил 14
1.2.2 Статистический машинный перевод 17
1.2.3 Нейронный машинный перевод. 21
Выводы по главе 1 25
ГЛАВА 2. ЭТАПЫ ОБРАБОТКИ ТЕКСТОВ В МАШИННОМ 27
ПЕРЕВОДЕ
2.1 Классическая поэтапная обработка текстов 27
2.2 Регулярные выражения. 30
2.2.1 Основные шаблоны и функции 30
2.2.2 Группы регулярных выражений 35
2.3. Нормализация текста. Стемминг и лемматизация 37
Выводы по главе 2 58
ЗАКЛЮЧЕНИЕ 59
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 61
ПРИЛОЖЕНИЕ

Появление и развитие технологий дало возможность машинного перевода, т.е. преобразование текста с одного естественного языка на другой эквивалентный по содержанию текст. Таким образом, возникает и сам вопрос понимания естественного языка. Обработка того или иного естественного языка основывается на особенностях данного языка. Многое зависит от типологической классификации языков т.е. от принадлежности языка к тому или иному типу: флективный, агглютинативный, изолирующий (аморфный) или инкорпорирующий (полисинтетический). Кроме этого учитываются грамматические, фонетические и лексические особенности каждого языка. Таким образом, модели по обработке естественного языка подстраивают под каждый обрабатываемый язык. Создаются и часто обновляются программы для понимания естественного языка. У каждой программы и модели есть свои задачи и методы их выполнения. Чтобы система могла определять естественный язык ей необходимо перевести его в «свой», с этой целью существует огромное количество задач и этапов представляющих собой сложную структуру.
В данной работе рассматривается один из важнейших этапов обработки текста - определение основы слова в машинном переводе, точнее два метода их определения: стемминг и лемматизация.
Актуальность выбранной темы дипломной работы обусловлена постоянным развитием искусственного интеллекта и необходимостью улучшать понимание и обработку естественных языков. Одним из основных свойств естественных языков является их эволютивность, т.е. способность к бесконечному развитию и модификации. Исходя из этого: все что связано с естественными языками является бесконечно-развивающимся процессом - прослеживается необходимость адаптировать искусственные технологии на постоянно изменяющийся процесс.
Предмет исследования: два метода определения основы слова в машинном переводе: стемминг и лемматизация.
Объект исследования: лексические базы для стемминга: Porter Stemmer, Lancaster Stemmer и Snowball Stemmer; лексические базы для лемматизации: WordNetLemmatizer и TextBlob.
Теоретической основой исследования служили научные труды ученых-лингвистов и программистов, посвященные обработке естественного языка и машинному переводу.
Цель представленной работы: оценить качество двух представленных методов - стемминга и лемматизации, сравнить и доказать, что они компенсируют друг друга.
Для выполнения цели важно выполнить следующие задачи:
1) выяснить на чем основываются стемминг и лемматизация;
2) изложить различия и недостатки стемминга и лемматизации;
3) объяснить причины возникновения неправильного определения или не распознавания основы слова представленными методами и предоставить методы улучшения их качества;
4) сравнить лексические базы стемминга (Porter Stemmer и Lancaster Stemmer) между собой;
5) сравнить лексические базы лемматизации (WordNetLemmatizer и TextBlob) между собой;
6) сравнить стемминг и лемматизацию (Porter Stemmer и WordNetLemmatizer) между собой.
В работе также рассматривается обработка естественного языка, машинный перевод, как одна из важных задач обработки естественного языка, и три его основных подхода, не считая их гибридных форм: 1) машинный перевод на базе лингвистических данных, 2) статистический машинный перевод и 3) нейронный машинный перевод.
В дипломной работе широко используются такие методы исследования, как теоретический анализ и синтез (рассматривается изучаемый объект по частям и после объединяется), изучение научных работ, сравнение, классификация, моделирование (шаблоны на практическую часть).
Практическая значимость исследования заключается в сравнении лемматизации и стемминга с определенными пакетами (WordNetLemmatizer, TextBlob, PorterStemmer, LancasterStemmer и SnowballStemmer) и их эффективности.
База исследования: язык программирования Python.
Гипотезы:
1) лемматизация и стемминг имеют свои недостатки, но способны компенсировать друг друга
2) результат определения базовой формы слова зависит от используемой лексической базы.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В данной работе были рассмотрены основные методы определения основы слова в машинном переводе: стемминг и лемматизация. Машинный перевод является одним из основных задач обработки естественного языка. Обработка естественного языка - комплексный процесс, состоящий из последовательности сложных операций (этапов), анализирующих и синтезирующих текст для выполнения поставленной задачи.
Этапы обработки текстов позволяют выполнить задачи ОЕЯ. В теоретической части данной работы рассмотрено появление, развитие и постепенное улучшение качества машинного перевода во всех аспектах (эффективности, скорости, требуемых ресурсах, адекватности перевода), что отражается в развитии трех основных подходов: машинный перевод на базе лингвистических правил, статистический и нейронный машинный перевод.
Каждый подход доминировал в свою “эпоху” пока не появлялся более эффективный метод, к примеру машинный перевод на базе лингвистических правил был преобладающей системой вплоть до 1990 -х, пока не появились параллельные корпуса, что способствовало развитию статистического машинного перевода.
Как было выявлено ранее, у каждого подхода есть как свои сильные стороны, так и недостатки в выполнении конкретных задач - именно поэтому некоторые компании предпочитают использовать гибридные системы, например, Яндекс Переводчик, использует нейронный и статистический подходы. Создание “идеального” подхода является трудной и почти недосягаемой задачей, в первую очередь из -за постепенных изменений языковых форм и языка в целом. Таким образом, машинный перевод представляет собой бесконечно изменяющий и развивающийся процесс, а с развитием машинного перевода и других технологий - NLP стала одной из самых важных технологий искусственного интеллекта.
Определение основы слова в машинном переводе касается автоматического анализа словоформ текста, перевода слов из естественного языка в “свой”, для дальнейшего синтеза текста.
В практической части показан принцип работы определения основы слова системой такими алгоритмами, как стемминг и лемматизация. Алгоритмы рассмотрены в языке программирования Python с разными библиотеками. В ходе проведенной работы было выявлено, что:
1) стемминг и лемматизация основаны на регулярных выражениях. Регулярные выражения широко используется языками программирования для проведения анализа и синтеза текстов, перевода языков в язык, позволяющий системам понимать естественные языки;
2) многое зависит от лексической базы, начиная от принципа ввода команд и заканчивая результатом определения основы слова, что подтверждает гипотезу №2;
3) стемминг и лемматизация имеют свои недостатки - избыточность и недостаточность, неправильное определение основы слова или даже опущение определения основы слова. Но данные алгоритмы компенсируют недостатки друг друга: стемминг эффективен в “легких” случаях определения, где можно срезать аффиксы по шаблону (cats= cat-s) - лемматизация принимает результат данного процесса т.к. слово находится в словаре. Но в случаях с видоизменённым корнем в словоформе, например, wolves -wolf - стеммер отрежет -es тем самым определив основу wolv, но это не является словарной формой слова и, поэтому, лемматизатор сравнив слово в словаре лексем приводит его к основе wolf (именительному падежу, единственному числу). Гипотеза №1 подтверждается;
4) для улучшения качества определения основы слова используются дополнительные параметры и/или команды, например, PoS-теги.



1. Андреева, А. Д. Обзор систем машинного перевода / А. Д. Андреева, И. Л. Меньшиков, А. А. Мокрушин. // Молодой ученый. 2013. -№ 12 (59). - С. 64-66.
2. Большакова Е.И. Автоматическая обработка текстов на естественном языке и анализ данных: учебное пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э, и др. // М.: Изд-во НИУ ВШЭ, 2017. - 269 с.
3. Большакова. Е.И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учебное пособие / Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. 2011 // М.: Изд-во МИЭМ, 2011. — 272 с.
4. Зализняк А.А. Грамматический словарь русского языка. Словоизменение. / Зализняк А.А. // М.: 3-е изд. Русский язык. 1987. - 800 с.
5. Кан Д. А. Применение теории компьютерной семантики русского
языка и статистических методов к построению системы машинного перевода: диссертация кандидата физико-математических наук: 05.13.11 - Санкт-
Петербург, 2011. - 129 с.
6. Маннинг К.Д. Введение в информационный поиск / Маннинг К.Д, Рагхаван П., Шютце Х.// М.: 2011. - 528 с.
7. Мифтахова Р.Г. Машинный перевод. Нейроперевод / Мифтахова Р.Г., Морозкина Е.А. // Вестник Башкирского университета. 2019. - Т. 24. №2 - 497-502 с.
8. Мифтахова Р.Г. Проблемы обработки естественного языка в машинном переводе // Автономная некоммерческая образовательная организация "Махачкалинский центр повышения квалификации". Махачкала, 2014. - 22-32 с.
9. Мифтахова Р.Г. Технологии машинного перевода. Нейроперевод. / Мифтахова Р.Г., Черепанова Е.М. // Доклады Башкирского университета
2018. - Т. 3. №6 - 711-715 с.
10. Николенко С. Глубокое обучение: погружение в мир нейронный сетей. / Николенко С., Кадурин А., Архангельская Е. // СПб.: Питер, 2018. - 480 с.
11. Риз Р. Обработка естественного языка на Java/ пер. с англ А.В Снастина. -М.: ДМК Пресс, 2016. - 264 с.
12. Ушаков Д.Н. Толковый словарь современного русского языка - М.: Изд-во “Аделант”, 2014. -800с.
13. Фаленов М.Е., Библия - СПб.: БХВ Петербург, 2009. - 560 с.
14. Шайкевич. А.Я. Введение в лингвистику: учебное пособие. - М.: “Academia”, 2005. - 394с.
15. Шолле Ф. Глубокое обучение на Python. - СПб.: Питер, 2018 - 400с.
16. Bird S. Natural Language Processing with Python/ Bird S., Klein E., Loper E. // Sebastopol: O’Reilly Media, 2009. - p.482.
17. Brinton, L.J. The structure of modern English - Amsterdam; Philadelphia: John Benjamins, 2000. - p. 335.
18. Brown, P. F. A statistical approach to machine translation. / Cocke, J., Della Pietra, S. A., Della Pietra, V. J., Jelinek, F., Lafferty, J. D., ... & Roossin, P. // Computational linguistics. 1990. - Vol. 16, №2. - p.79-85.
19. C.J. van Rijsbergen. New models in probabilistic information retrieval. / S.E. Robertson and M.F. Porter. // British Library Research and Development Report. - London: British Library. 1980. - №5587. p. 261-270.
20. Hull, D.A. Stemming algorithms: a case study for detailed evaluation // Journal of the American Society for Information Science. 1996. - Vol. 47, №1. - p. 70-84.
21. Luong M.T. Effective Approaches to Attention-based Neural Machine Translation // Luong M.T., Pham H., Manning C.D // Conference on Empirical Methods in Natural Language Processing. (Lisbon (Portugal) 17-21 September, 2015). - p. 1412 - 1421.
22. Porter, Martin F. An Algorithm for Suffix Stripping // Program: electronic library and information systems. 1980. — Т. 14, № 3.p. 130-137.
23. Santini, M. Common criteria for genre classification: annptation and granularity // 3-d international workshop on text-based information retrieval (TIR- 06). - Riva del Garda, Italy: University of Trento, 2006. p. 35-40.
24. Weaver, W. Translation. Machine translation of languages. 1955. - T.14. p. 15-23.
Электронные ресурсы
25. Википедия. Естественный язык. URL: https://ru.wikipedia.org/wiki/
26. Как победить морников: Яндекс запустил гибридную систему перевода. URL: https://yandex.ru/blog/company/kak-pobedit-mornikov-yandeks- zapustil-gibridnuyu-sistemu-perevoda
27. Лицензионное соглашение MyStem. URL:
https://yandex.ru/legal/mystem/
28. Лингвистика и обработка текстов URL:
https://www.osp.ru/os/2013/04/13035562
29. Обработка естественного языка // Краткое руководство. 16 июня
2018. URL: https://coderlessons.com/tutorials/akademicheskii/obrabotka-
estestvennogo-iazyka/obrabotka-estestvennogo-iazyka-kratkoe-rukovodstvo
30. Подходы лемматизации с примерами. URL:
https://webdevblog.ru/podhody-lemmatizacii-s-primerami-v-python/
31. Стемминг текстов на естественном языке // L-Tips. URL: http://r.psylab.info/blog/2015/05/26/text-stemming/
32. Segalovich I. A fast morphological algorithm with unknown word
guessing induced by a dictionary for a web search engine [Электронный ресурс] // Yandex-Team. URL: http://cache-
mskdataline03.cdn.yandex.net/download.yandex.ru/company/iseg-las-vegas.pdf
33. https://ru.qwe.wiki/wiki/Rulebased machine translation#Types of R BMT
34. http://www.inf.ed.ac.uk/teaching/courses/mt/lectures/history.pdf


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ