Введение 3
Глава 1. Теоретико-нормативные основы использования и конвертации
кириллицы на латиницу для татарского языка 9
1.1 Теоретические аспекты использования латинской графики в
татарском языке 9
1.2 Анализ существующих разработок 17
Выводы по первой главе 22
Глава 2. Проектирование, разработка и тестирование конвертера
кириллицы на латиницу для татарского языка 23
2.1. Описание алгоритмической модели 23
2.2. Исследование различных методов распознавания этимологии 29
2.3. Реализация программного продукта и его возможности 47
2.4. Тестирование готового программного продукта 61
Выводы по второй главе 69
Заключение 70
Список использованной литературы 71
Приложения
Письменность считается важным средством коммуникации человека. Изобретение письменности привело к информационной революции, благодаря которой появились новые возможности для обмена и передачи информации умение писать, как и умение читать, является одним из необходимых условий грамотности. Даже, несмотря на появление новых средств, и технологий передачи данных, письменная коммуникация не утратила своего влияния на деятельность человека. Необходимо развивать и поддерживать письменные навыки человека в условиях внедрения информационных технологий. В настоящее время латинский алфавит знаком почти всем умеющим читать людям Земли, поскольку изучается всеми школьниками либо на уроках математики, либо на уроках иностранного языка (не говоря уже о том, что для многих языков латинский алфавит является родным), поэтому он де-факто является «алфавитом международного общения». На латинском алфавите основано большинство искусственных языков, в частности, эсперанто, идо и другие. Для всех языков с нелатинской письменностью существуют также системы записи латиницей - даже если иностранец и не знает правильного чтения, ему гораздо легче иметь дело со знакомыми латинскими буквами. В ряде стран вспомогательное письмо латиницей стандартизировано, и дети изучают его в школе. Например, в Японии и Китае. Неоднократно выдвигалась идея перевода всех языков на латинское письмо. Например, сторонником глобальной латинизации был известный датский лингвист Отто Есперсен. Запись латиницей в ряде случаев диктуется техническими трудностями: международные телеграммы всегда писались латиницей; в сети Интернет можно встретить запись русского языка латиницей из-за отсутствия поддержки кириллицы. Для того чтобы выжить и развиваться в настоящее время любой язык, также и татарский, должен войти в
компьютерные технологии как язык хранения, обработки и передачи информации.
Очевидно, чем ближе алфавит языка к алфавиту языка мировых информационных технологий, каковой сегодня является латиница, и чем меньше промежуточных конвертаций - тем он эффективнее, так как это приводит к экономии памяти для хранения и сокращению времени обработки - а значит и выгодно экономически. Уменьшение промежуточных модулей (конверторов, таблиц перехода) приводит к увеличению надежности системы (меньше деталей - больше надежность). Как известно, в технических системах, время, память, надежность - это одни из самых критичных и важных показателей. Многие из тюркоязычных стран решили вернуться к латинице. И это понятно, так как латинская азбука позволила тюркским языкам, в том числе и татарскому языку, создать удобную систему чтения и письма. Она соответствует канонам тюркского языка и несложна для освоения. Латиница одна из наиболее употребляемых график в мире. У многих народов Европы (кроме болгар) латинское письмо. У родственной с нами малой Азии, Северной и Южной Америки тоже латинская графика. Латиница позволяет сохранить обычаи и традиции, язык народа.
В Республике Татарстан (РТ) ведутся масштабные работы по сохранению и развитию языка как основы татарской письменности. РТ является одним из лидирующих субъектов федерации по темпам компьютеризации и информатизации. Государственные структуры РТ, а также энтузиасты вовлечены в процесс разработки различных проектов, цель которых - интеграция татарского языка и культуры с информационно-коммуникационными технологиями. За свою историю татарский язык несколько раз менял свою письменность, в разное время использовались разные системы письма. Арабское письмо - до 1927 года. Данным видом письма пользуются немногочисленные татары Китая и в наше время.
• Латиница - в 1927-1939 годах. В настоящее время Латиницу используют татары Турции, Финляндии, Чехии, Польши, США и Австралии.
• Кириллица - с 1939 года по настоящее время. Крещеные татары пользовались кириллицей с XIX века.
Данную письменность пытались возродить на рубеже ХХ-ХХ1 веков. В тридцатые годы 20 века был принят новый алфавит “Яцалиф”, который позволил показать положительные стороны использования латинской графики в татарском языке, а именно:
• Стало проще усваивать европейский язык
• Сохранилось возможность чтения книг, понимания между собой среди тюркских языков еще со времен использования арабской графики. Т.к. после принятия единой графики многие книги были переведены и написаны с использованием латинских букв.
Использование единой графики выгодно с точки зрения межкультурного взаимодействия, так как латиница позволяет сохранить обычаи и традиции, язык народа.
В ситуации, когда параллельно происходит использование двух алфавитов — латиницы и кириллицы — возникает необходимость в конвертации сообщений между двумя типами график. Разрабатывается специальное программное обеспечение, предназначенное для конвертации текстов на татарском языке с кириллицы на латиницу. Этими вышестоящими причинами обусловлено создание конвертера с кириллической графики на латинскую графику для татарского языка.
Выбор темы исследования обозначен противоречием между необходимостью в программном продукте, реализующим процесс
конвертации, и отсутствием соответствующих решений на рынке программного обеспечения.
Цель исследования заключается в разработке программного продукта, предназначенного для конвертации кириллической графики на латинскую графику для татарского языка.
Объект исследования: компьютерная обработка естественного языка.
Предмет исследования: разработка конвертера с кириллической графики на латинскую графику для татарского языка.
Гипотеза: процесс конвертации кириллической графики на
латинскую графику для татарского языка может быть эффективнее, если:
• исследованы правила использования латинской графики в татарском языке и проанализированы принципы конвертации татарской кириллицы в татарскую латиницу;
• разработано программное обеспечение, осуществляющее конвертацию татарской кириллицы в татарскую латиницу;
• апробирован и опубликован готовый программный продукт.
Задачи исследования:
• Изучить аспекты конвертации татарской кириллицы в татарскую латиницу;
• Разработать программное обеспечение, осуществляющее конвертацию татарской кириллицы в татарскую латиницу;
• Протестировать, опубликовать и апробировать готовый программный продукт.
В ходе работы были использованы главным образом следующие методы исследования: теоретические (анализ научной литературы, посвященной особенностям конвертации татарской кириллицы в татарскую латиницу, теории алгоритмов, теории вероятностей); статистические (качественный анализ результатов исследования); эмпирические (методы математического моделирования, линейного программирования, анализа вычислительных алгоритмов, методы объектно-ориентированного программирования, методы применения шаблонов проектирования, тестирование программного обеспечения).
База исследования — экспериментальная работа проводилась на базе кафедры образовательных технологий и информационных систем в филологии Института филологии и межкультурной коммуникации имени Льва Толстого федерального государственного автономного образовательного учреждения высшего образования «Казанский (Приволжский) федеральный университет».
Научная новизна:
1. Изучены особенности использования латинской графики в татарском языке, а также сформулированы принципы конвертации татарской кириллицы в татарскую латиницу. В основе использования латинской графики для татарского языка лежит обновленный вариант латинского алфавита и принцип соответствия фонемы и графемы. Данный принцип применяется лишь для конвертации родных слов татарского языка, для конвертации заимствованных слов применяется принцип конвертации, основанный на механической транслитерации.
2. Разработана алгоритмическая модель конвертации с кириллицы на латиницу, ключевой особенностью которой является модуль определения этимологии обрабатываемых слов. Функционирование модуля основано на применении статистических методов, а также методов линейного программирования: комбинированный биграммный анализ, наивный байесовский классификатор, прямой перебор.
3. Протестировано и опубликовано программное обеспечение, позволяющее производить конвертацию текстовых сообщений на татарском языке с кириллицы на латиницу. В основу разработки программного обеспечения легли принципы модульности и расширяемости, которые позволяют улучшать качество работы программного продукта, а также применять его для конвертации других тюркских языков.
Теоретическая значимость: Исследованы современные правила и принципы преобразования кириллической графики на латинскую графику для татарского языка. Обобщены и представлены в виде алгоритмической модели правила конвертации кириллической графики на латинскую графику для татарского языка. Результаты исследования могут быть использованы в процессе разработки аналогичных программных решений для других тюркских языков.
Практическая значимость: разработанный конвертер откроет
новые возможности по использованию татарского языка в сфере коммуникации, ИТ-индустрии. Материалы диссертации могут использоваться при преподавании дисциплины «Информационные технологии в профессиональной деятельности» для магистрантов, обучающихся по специальности «Информационные технологии в филологии и образовании» Института филологии и межкультурной коммуникации имени Льва Толстого федерального государственного автономного образовательного учреждения высшего образования «Казанский (Приволжский) Федеральный университет»
На данный момент все цели исследования были успешно выполнены. Были изучены аспекты конвертации татарской кириллицы в татарскую латиницу, обобщены и представлены в виде алгоритмической модели принципы конвертации с кириллицы на латиницу.
Были рассмотрены аспекты использования латиницы в татарском языке. Было создано программное обеспечение для автоматической конвертации сообщения записанного с помощью татарской кириллицы в сообщение, записанное с помощью татарской латиницы.
Разработанное программное обеспечение показало высокую точность и скорость конвертации, что подтверждает нашу гипотезу. Программное обеспечение было протестировано и опубликовано. Модульность и расширяемость программного продукта позволяют улучшать качество работы программного продукта, а также применять его для конвертации других тюркских языков.
1) Интернет-ресурс: Татарская письменность//Википедия, свободная энциклопедия
URL: https://ru.wikipedia.org/wiki/ Татарская_письменность (дата
обращения 21.02.2016).
2) Интернет-ресурс: Закон РТ «Об использовании татарского языка как государственного языка республики Татарстан»
URL:
http://www.gossov.tatarstan.ru/fs/site_documents_stmc/zakon/2692_file_1_201 3rus_ru.pdf (дата обращения 21.02.2016).
3) Хаков В.Х. Телен белгэн ил ачар: Латин графикасында уку hoM язу кYнекмэлэре// Издательство Мэгариф, Казань,1993.
4) Интернет-ресурс: Национальный корпус татарского языка
URL: http://tatcorp.antat.ru/disam/ (Дата обращения: 24:02:2016)
5) Субботин С. В., Большаков Д. Ю. Применение байесовского классификатора для распознавания классов целей. // «Журнал Радиоэлектроники», 2006, № 4
6) Гмурман В. Е. Теория вероятностей и математическая статистика, — М.: Высшее образование. 2005
7) Интернет-ресурс: Теорема Байеса//Википедия, свободная
энциклопедия
URL: https://ru.wikipedia.org/wiki/Теорема_Байеса (дата обращения
21.02.2016) .
8) Кузнецов А.В., Сакович В.А., Холод Н.И. Высшая математика. Математическое программирование. Минск: Вышейшая школа, 2006 г.
9) Пугачев B.C. Теория вероятностей и математическая статистика: Учеб. Пособие / В.С. Пугачев.— 2-е изд., исправл. и дополи.— М.: Физматлит,2002.- 496 с.
10) Сидняев, Н. И. Теория планирования эксперимента и анализ статистических данных : учеб. пособие для магистров / Н. И. Сидняев. - М.
: Юрайт, 2012. - 399 с.
11) Гречников Е.А., Г. Г. (2001). Поиск неестественных текстов . Proceedings of VLDB-2001
12) Селезнев К. "Обработка текстов на естественном языке Открытые системы" // Открытые системы,2003,#12
13) Ножов И. "Синтаксический анализ" // Компьютерра,2002,#21
14) Михаилян А. "Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах" // 2001
15) Автоматическая обработка текстов на естественном языке и компью- терная лингвистика // Большакова Е.И. и др. - М.: МИЭМ, 2011. - 272 с.
16) Баженов Д. О задачах классификации [Электронный ресурс]. - Режим доступа: // http://bazhenov.me/blog/, свободный.
17) Баранов А. Н. Введение в прикладную лингвистику. М., 2003.
18) Боярский К. К., Каневский Е. А. Вега — компьютерная система класси- фикации и анализа текстов. Lambert Academic Publishing, 2011.
19) Боярский К. К., Каневский Е. А. Семантико-синтаксический анализатор SemSin Международная конференция по компьютерной лингвистике «Диалог-2012», [Электронный ресурс]. - Режим доступа: http://www.dialog-21.ru/digest/2012/?type=doc, свободный.
20) Кобозева И. М. Лингвистическая семантика. - М., 2000.
21) Коваль С. А, Лингвистические проблемы компьютерной морфологии. СПб., 2005.
22) Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. - 2-е изд., перераб. и доп.- СПб.: БХВ-Петербург, 2007.
23) Боярский К. К. Введение в компьютерную лингвистику. Учебное по- собие. - СПб: НИУ ИТМО, 2013. - 72 с.
24) Закиев, М. З. Тюрко-татарское письмо. История, состояние, перспективы. — М.: Инсан, 2005
25) Э. Гамма, Р. Хелм, Р. Джонсон, Дж. Влиссидес. Приемы объектно-ориентированного проектирования. Паттерны проектирования = Design Patterns: Elements of Reusable Object-Oriented Software. — СПб: «Питер», 2007. — С. 366. — ISBN 978-5-469-01136-1. (также ISBN 5-27200355-1)
26) Крэг Ларман. Применение UML 2.0 и шаблонов проектирования = Applying UML and Patterns : An Introduction to Object-Oriented Analysis and Design and Iterative Development. — М.: «Вильямс», 2006. — С. 736. — ISBN 0-13-148906-2.
27) Интернет-ресурс: N-граммаУВикипедия, свободная энциклопедия
URL: https://ru.wikipedia.org/wiki/N-грамма (дата обращения
21.02.2016) .
28) Интернет-ресурс: Шаблон проектирования //Википедия,
свободная энциклопедия
URL: https://ru.wikipedia.org/wiki/ Шаблон_проектирования (дата
обращения 21.02.2016).
29) Интернет-ресурс: Этимология//Википедия, свободная
энциклопедия
URL: https://ru.wikipedia.org/wiki/ Этимология (дата обращения
21.02.2016) .
30) Интернет-ресурс: Компьютерная лингвистика//Википедия,
свободная энциклопедия
URL: https://ru.wikipedia.org/wiki/ Компьютерная_лингвистика (дата обращения 21.02.2016).
31) Кузнецов А.В., Сакович В.А., Холод Н.И. Высшая математика. Математическое программирование. Минск: Вышейшая школа, 2006 г.
32) Пугачев B.C. Теория вероятностей и математическая статистика: Учеб. Пособие ,2002.- 496 с.
33) Сидняев, Н. И. Теория планирования эксперимента и анализ статистических данных : учеб. пособие для магистров / Н. И. Сидняев. - М.
: Юрайт, 2012. - 399 с.
34) Гречников Е.А., Г. Г. (2001). Поиск неестественных текстов . Proceedings of VLDB-2001
35) Селезнев К. "Обработка текстов на естественном языке Открытые системы" // Открытые системы,2003,#12
36) Ножов И. "Синтаксический анализ" // Компьютерра,2002,#21
37) Михаилян А. "Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах" // 2001
38) Автоматическая обработка текстов на естественном языке и компьютерная лингвистика // Большакова Е.И. и др. - М.: МИЭМ, 2011. - 272 с.
39) Баженов Д. О задачах классификации [Электронный ресурс]. - Режим доступа: // http://bazhenov.me/blog/, свободный.
40) Баранов А. Н. Введение в прикладную лингвистику. М., 2003.
41) Боярский К. К., Каневский Е. А. Вега — компьютерная система класси- фикации и анализа текстов. Lambert Academic Publishing, 2011.
42) Боярский К. К., Каневский Е. А. Семантико-синтаксический анализатор SemSin Международная конференция по компьютерной лингвистике «Диалог-2012», [Электронный ресурс]. - Режим доступа: http://www.dialog-21.ru/digest/2012/?type=doc, свободный.
43) Кобозева И. М. Лингвистическая семантика. - М., 2000.
44) Коваль С. А, Лингвистические проблемы компьютерной морфологии. СПб., 2005.
45) Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. - 2-е изд., перераб. и доп.- СПб.: БХВ-Петербург, 2007.
46) Боярский К. К. Введение в компьютерную лингвистику. Учебное по- собие. - СПб: НИУ ИТМО, 2013. - 72 с.
47) Закиев, М. З. Тюрко-татарское письмо. История, состояние, перспективы. — М.: Инсан, 2005
48) Э. Гамма, Р. Хелм, Р. Джонсон, Дж. Влиссидес. Приемы объектно-ориентированного проектирования. Паттерны проектирования— СПб: «Питер», 2007. — С. 366. — ISBN 978-5-469-01136-1. (также ISBN 5272-00355-1)
49) Крэг Ларман. Применение UML 2.0 и шаблонов проектирования = Applying UML and Patterns :— М.: «Вильямс», 2006. — С. 736. — ISBN 0-13-148906-2.
50) Мхитарян В.С. Трошин Л.И. Адамова Е.В. Шевченко Бамбаева Н.Я. Теория вероятностей и математическая статистика