Тип работы:
Предмет:
Язык работы:


Разработка конвертера с кириллической графики на латинскую графику для татарского языка

Работа №54591

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы91
Год сдачи2017
Стоимость5700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
378
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Теоретико-нормативные основы использования и конвертации
кириллицы на латиницу для татарского языка 9
1.1 Теоретические аспекты использования латинской графики в
татарском языке 9
1.2 Анализ существующих разработок 17
Выводы по первой главе 22
Глава 2. Проектирование, разработка и тестирование конвертера
кириллицы на латиницу для татарского языка 23
2.1. Описание алгоритмической модели 23
2.2. Исследование различных методов распознавания этимологии 29
2.3. Реализация программного продукта и его возможности 47
2.4. Тестирование готового программного продукта 61
Выводы по второй главе 69
Заключение 70
Список использованной литературы 71
Приложения

Письменность считается важным средством коммуникации человека. Изобретение письменности привело к информационной революции, благодаря которой появились новые возможности для обмена и передачи информации умение писать, как и умение читать, является одним из необходимых условий грамотности. Даже, несмотря на появление новых средств, и технологий передачи данных, письменная коммуникация не утратила своего влияния на деятельность человека. Необходимо развивать и поддерживать письменные навыки человека в условиях внедрения информационных технологий. В настоящее время латинский алфавит знаком почти всем умеющим читать людям Земли, поскольку изучается всеми школьниками либо на уроках математики, либо на уроках иностранного языка (не говоря уже о том, что для многих языков латинский алфавит является родным), поэтому он де-факто является «алфавитом международного общения». На латинском алфавите основано большинство искусственных языков, в частности, эсперанто, идо и другие. Для всех языков с нелатинской письменностью существуют также системы записи латиницей - даже если иностранец и не знает правильного чтения, ему гораздо легче иметь дело со знакомыми латинскими буквами. В ряде стран вспомогательное письмо латиницей стандартизировано, и дети изучают его в школе. Например, в Японии и Китае. Неоднократно выдвигалась идея перевода всех языков на латинское письмо. Например, сторонником глобальной латинизации был известный датский лингвист Отто Есперсен. Запись латиницей в ряде случаев диктуется техническими трудностями: международные телеграммы всегда писались латиницей; в сети Интернет можно встретить запись русского языка латиницей из-за отсутствия поддержки кириллицы. Для того чтобы выжить и развиваться в настоящее время любой язык, также и татарский, должен войти в
компьютерные технологии как язык хранения, обработки и передачи информации.
Очевидно, чем ближе алфавит языка к алфавиту языка мировых информационных технологий, каковой сегодня является латиница, и чем меньше промежуточных конвертаций - тем он эффективнее, так как это приводит к экономии памяти для хранения и сокращению времени обработки - а значит и выгодно экономически. Уменьшение промежуточных модулей (конверторов, таблиц перехода) приводит к увеличению надежности системы (меньше деталей - больше надежность). Как известно, в технических системах, время, память, надежность - это одни из самых критичных и важных показателей. Многие из тюркоязычных стран решили вернуться к латинице. И это понятно, так как латинская азбука позволила тюркским языкам, в том числе и татарскому языку, создать удобную систему чтения и письма. Она соответствует канонам тюркского языка и несложна для освоения. Латиница одна из наиболее употребляемых график в мире. У многих народов Европы (кроме болгар) латинское письмо. У родственной с нами малой Азии, Северной и Южной Америки тоже латинская графика. Латиница позволяет сохранить обычаи и традиции, язык народа.
В Республике Татарстан (РТ) ведутся масштабные работы по сохранению и развитию языка как основы татарской письменности. РТ является одним из лидирующих субъектов федерации по темпам компьютеризации и информатизации. Государственные структуры РТ, а также энтузиасты вовлечены в процесс разработки различных проектов, цель которых - интеграция татарского языка и культуры с информационно-коммуникационными технологиями. За свою историю татарский язык несколько раз менял свою письменность, в разное время использовались разные системы письма. Арабское письмо - до 1927 года. Данным видом письма пользуются немногочисленные татары Китая и в наше время.
• Латиница - в 1927-1939 годах. В настоящее время Латиницу используют татары Турции, Финляндии, Чехии, Польши, США и Австралии.
• Кириллица - с 1939 года по настоящее время. Крещеные татары пользовались кириллицей с XIX века.
Данную письменность пытались возродить на рубеже ХХ-ХХ1 веков. В тридцатые годы 20 века был принят новый алфавит “Яцалиф”, который позволил показать положительные стороны использования латинской графики в татарском языке, а именно:
• Стало проще усваивать европейский язык
• Сохранилось возможность чтения книг, понимания между собой среди тюркских языков еще со времен использования арабской графики. Т.к. после принятия единой графики многие книги были переведены и написаны с использованием латинских букв.
Использование единой графики выгодно с точки зрения межкультурного взаимодействия, так как латиница позволяет сохранить обычаи и традиции, язык народа.
В ситуации, когда параллельно происходит использование двух алфавитов — латиницы и кириллицы — возникает необходимость в конвертации сообщений между двумя типами график. Разрабатывается специальное программное обеспечение, предназначенное для конвертации текстов на татарском языке с кириллицы на латиницу. Этими вышестоящими причинами обусловлено создание конвертера с кириллической графики на латинскую графику для татарского языка.
Выбор темы исследования обозначен противоречием между необходимостью в программном продукте, реализующим процесс
конвертации, и отсутствием соответствующих решений на рынке программного обеспечения.
Цель исследования заключается в разработке программного продукта, предназначенного для конвертации кириллической графики на латинскую графику для татарского языка.
Объект исследования: компьютерная обработка естественного языка.
Предмет исследования: разработка конвертера с кириллической графики на латинскую графику для татарского языка.
Гипотеза: процесс конвертации кириллической графики на
латинскую графику для татарского языка может быть эффективнее, если:
• исследованы правила использования латинской графики в татарском языке и проанализированы принципы конвертации татарской кириллицы в татарскую латиницу;
• разработано программное обеспечение, осуществляющее конвертацию татарской кириллицы в татарскую латиницу;
• апробирован и опубликован готовый программный продукт.
Задачи исследования:
• Изучить аспекты конвертации татарской кириллицы в татарскую латиницу;
• Разработать программное обеспечение, осуществляющее конвертацию татарской кириллицы в татарскую латиницу;
• Протестировать, опубликовать и апробировать готовый программный продукт.
В ходе работы были использованы главным образом следующие методы исследования: теоретические (анализ научной литературы, посвященной особенностям конвертации татарской кириллицы в татарскую латиницу, теории алгоритмов, теории вероятностей); статистические (качественный анализ результатов исследования); эмпирические (методы математического моделирования, линейного программирования, анализа вычислительных алгоритмов, методы объектно-ориентированного программирования, методы применения шаблонов проектирования, тестирование программного обеспечения).
База исследования — экспериментальная работа проводилась на базе кафедры образовательных технологий и информационных систем в филологии Института филологии и межкультурной коммуникации имени Льва Толстого федерального государственного автономного образовательного учреждения высшего образования «Казанский (Приволжский) федеральный университет».
Научная новизна:
1. Изучены особенности использования латинской графики в татарском языке, а также сформулированы принципы конвертации татарской кириллицы в татарскую латиницу. В основе использования латинской графики для татарского языка лежит обновленный вариант латинского алфавита и принцип соответствия фонемы и графемы. Данный принцип применяется лишь для конвертации родных слов татарского языка, для конвертации заимствованных слов применяется принцип конвертации, основанный на механической транслитерации.
2. Разработана алгоритмическая модель конвертации с кириллицы на латиницу, ключевой особенностью которой является модуль определения этимологии обрабатываемых слов. Функционирование модуля основано на применении статистических методов, а также методов линейного программирования: комбинированный биграммный анализ, наивный байесовский классификатор, прямой перебор.
3. Протестировано и опубликовано программное обеспечение, позволяющее производить конвертацию текстовых сообщений на татарском языке с кириллицы на латиницу. В основу разработки программного обеспечения легли принципы модульности и расширяемости, которые позволяют улучшать качество работы программного продукта, а также применять его для конвертации других тюркских языков.
Теоретическая значимость: Исследованы современные правила и принципы преобразования кириллической графики на латинскую графику для татарского языка. Обобщены и представлены в виде алгоритмической модели правила конвертации кириллической графики на латинскую графику для татарского языка. Результаты исследования могут быть использованы в процессе разработки аналогичных программных решений для других тюркских языков.
Практическая значимость: разработанный конвертер откроет
новые возможности по использованию татарского языка в сфере коммуникации, ИТ-индустрии. Материалы диссертации могут использоваться при преподавании дисциплины «Информационные технологии в профессиональной деятельности» для магистрантов, обучающихся по специальности «Информационные технологии в филологии и образовании» Института филологии и межкультурной коммуникации имени Льва Толстого федерального государственного автономного образовательного учреждения высшего образования «Казанский (Приволжский) Федеральный университет»


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


На данный момент все цели исследования были успешно выполнены. Были изучены аспекты конвертации татарской кириллицы в татарскую латиницу, обобщены и представлены в виде алгоритмической модели принципы конвертации с кириллицы на латиницу.
Были рассмотрены аспекты использования латиницы в татарском языке. Было создано программное обеспечение для автоматической конвертации сообщения записанного с помощью татарской кириллицы в сообщение, записанное с помощью татарской латиницы.
Разработанное программное обеспечение показало высокую точность и скорость конвертации, что подтверждает нашу гипотезу. Программное обеспечение было протестировано и опубликовано. Модульность и расширяемость программного продукта позволяют улучшать качество работы программного продукта, а также применять его для конвертации других тюркских языков.



1) Интернет-ресурс: Татарская письменность//Википедия, свободная энциклопедия
URL: https://ru.wikipedia.org/wiki/ Татарская_письменность (дата
обращения 21.02.2016).
2) Интернет-ресурс: Закон РТ «Об использовании татарского языка как государственного языка республики Татарстан»
URL:
http://www.gossov.tatarstan.ru/fs/site_documents_stmc/zakon/2692_file_1_201 3rus_ru.pdf (дата обращения 21.02.2016).
3) Хаков В.Х. Телен белгэн ил ачар: Латин графикасында уку hoM язу кYнекмэлэре// Издательство Мэгариф, Казань,1993.
4) Интернет-ресурс: Национальный корпус татарского языка
URL: http://tatcorp.antat.ru/disam/ (Дата обращения: 24:02:2016)
5) Субботин С. В., Большаков Д. Ю. Применение байесовского классификатора для распознавания классов целей. // «Журнал Радиоэлектроники», 2006, № 4
6) Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005
7) Интернет-ресурс: Теорема Байеса//Википедия, свободная
энциклопедия
URL: https://ru.wikipedia.org/wiki/Теорема_Байеса (дата обращения
21.02.2016) .
8) Кузнецов А.В., Сакович В.А., Холод Н.И. Высшая математика. Математическое программирование. Минск: Вышейшая школа, 2006 г.
9) Пугачев B.C. Теория вероятностей и математическая статистика: Учеб. Пособие / В.С. Пугачев.— 2-е изд., исправл. и дополи.— М.: Физматлит,2002.- 496 с.
10) Сидняев, Н. И. Теория планирования эксперимента и анализ статистических данных : учеб. пособие для магистров / Н. И. Сидняев. - М.
: Юрайт, 2012. - 399 с.
11) Гречников Е.А., Г. Г. (2001). Поиск неестественных текстов . Proceedings of VLDB-2001
12) Селезнев К. "Обработка текстов на естественном языке Открытые системы" // Открытые системы,2003,#12
13) Ножов И. "Синтаксический анализ" // Компьютерра,2002,#21
14) Михаилян А. "Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах" // 2001
15) Автоматическая обработка текстов на естественном языке и компью- терная лингвистика // Большакова Е.И. и др. - М.: МИЭМ, 2011. - 272 с.
16) Баженов Д. О задачах классификации [Электронный ресурс]. - Режим доступа: // http://bazhenov.me/blog/, свободный.
17) Баранов А. Н. Введение в прикладную лингвистику. М., 2003.
18) Боярский К. К., Каневский Е. А. Вега — компьютерная система класси- фикации и анализа текстов. Lambert Academic Publishing, 2011.
19) Боярский К. К., Каневский Е. А. Семантико-синтаксический анализатор SemSin Международная конференция по компьютерной лингвистике «Диалог-2012», [Электронный ресурс]. - Режим доступа: http://www.dialog-21.ru/digest/2012/?type=doc, свободный.
20) Кобозева И. М. Лингвистическая семантика. - М., 2000.
21) Коваль С. А, Лингвистические проблемы компьютерной морфологии. СПб., 2005.
22) Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. - 2-е изд., перераб. и доп.- СПб.: БХВ-Петербург, 2007.
23) Боярский К. К. Введение в компьютерную лингвистику. Учебное по- собие. - СПб: НИУ ИТМО, 2013. - 72 с.
24) Закиев, М. З. Тюрко-татарское письмо. История, состояние, перспективы. — М.: Инсан, 2005
25) Э. Гамма, Р. Хелм, Р. Джонсон, Дж. Влиссидес. Приемы объектно-ориентированного проектирования. Паттерны проектирования = Design Patterns: Elements of Reusable Object-Oriented Software. — СПб: «Питер», 2007. — С. 366. — ISBN 978-5-469-01136-1. (также ISBN 5-27200355-1)
26) Крэг Ларман. Применение UML 2.0 и шаблонов проектирования = Applying UML and Patterns : An Introduction to Object-Oriented Analysis and Design and Iterative Development. — М.: «Вильямс», 2006. — С. 736. — ISBN 0-13-148906-2.
27) Интернет-ресурс: N-граммаУВикипедия, свободная энциклопедия
URL: https://ru.wikipedia.org/wiki/N-грамма (дата обращения
21.02.2016) .
28) Интернет-ресурс: Шаблон проектирования //Википедия,
свободная энциклопедия
URL: https://ru.wikipedia.org/wiki/ Шаблон_проектирования (дата
обращения 21.02.2016).
29) Интернет-ресурс: Этимология//Википедия, свободная
энциклопедия
URL: https://ru.wikipedia.org/wiki/ Этимология (дата обращения
21.02.2016) .
30) Интернет-ресурс: Компьютерная лингвистика//Википедия,
свободная энциклопедия
URL: https://ru.wikipedia.org/wiki/ Компьютерная_лингвистика (дата обращения 21.02.2016).
31) Кузнецов А.В., Сакович В.А., Холод Н.И. Высшая математика. Математическое программирование. Минск: Вышейшая школа, 2006 г.
32) Пугачев B.C. Теория вероятностей и математическая статистика: Учеб. Пособие ,2002.- 496 с.
33) Сидняев, Н. И. Теория планирования эксперимента и анализ статистических данных : учеб. пособие для магистров / Н. И. Сидняев. - М.
: Юрайт, 2012. - 399 с.
34) Гречников Е.А., Г. Г. (2001). Поиск неестественных текстов . Proceedings of VLDB-2001
35) Селезнев К. "Обработка текстов на естественном языке Открытые системы" // Открытые системы,2003,#12
36) Ножов И. "Синтаксический анализ" // Компьютерра,2002,#21
37) Михаилян А. "Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах" // 2001
38) Автоматическая обработка текстов на естественном языке и компьютерная лингвистика // Большакова Е.И. и др. - М.: МИЭМ, 2011. - 272 с.
39) Баженов Д. О задачах классификации [Электронный ресурс]. - Режим доступа: // http://bazhenov.me/blog/, свободный.
40) Баранов А. Н. Введение в прикладную лингвистику. М., 2003.
41) Боярский К. К., Каневский Е. А. Вега — компьютерная система класси- фикации и анализа текстов. Lambert Academic Publishing, 2011.
42) Боярский К. К., Каневский Е. А. Семантико-синтаксический анализатор SemSin Международная конференция по компьютерной лингвистике «Диалог-2012», [Электронный ресурс]. - Режим доступа: http://www.dialog-21.ru/digest/2012/?type=doc, свободный.
43) Кобозева И. М. Лингвистическая семантика. - М., 2000.
44) Коваль С. А, Лингвистические проблемы компьютерной морфологии. СПб., 2005.
45) Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. - 2-е изд., перераб. и доп.- СПб.: БХВ-Петербург, 2007.
46) Боярский К. К. Введение в компьютерную лингвистику. Учебное по- собие. - СПб: НИУ ИТМО, 2013. - 72 с.
47) Закиев, М. З. Тюрко-татарское письмо. История, состояние, перспективы. — М.: Инсан, 2005
48) Э. Гамма, Р. Хелм, Р. Джонсон, Дж. Влиссидес. Приемы объектно-ориентированного проектирования. Паттерны проектирования— СПб: «Питер», 2007. — С. 366. — ISBN 978-5-469-01136-1. (также ISBN 5272-00355-1)
49) Крэг Ларман. Применение UML 2.0 и шаблонов проектирования = Applying UML and Patterns :— М.: «Вильямс», 2006. — С. 736. — ISBN 0-13-148906-2.
50) Мхитарян В.С. Трошин Л.И. Адамова Е.В. Шевченко Бамбаева Н.Я. Теория вероятностей и математическая статистика


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ