Тип работы:
Предмет:
Язык работы:


АНАЛИЗ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ, НАПРАВЛЕННОГО НА КОНВЕРТАЦИЮ КИРИЛЛИЧЕСКОЙ ГРАФИКИ НА ЛАТИНИЦУ ДЛЯ ТАТАРСКОГО ЯЗЫКА

Работа №44771

Тип работы

Дипломные работы, ВКР

Предмет

языкознание

Объем работы54
Год сдачи2018
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
341
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Латинская графика в татарском языке 7
1. Особенности латинской графики для татарского языка
2. Теоретические основы использования латинской графики в
татарском языке 7
Итоги по первой главе 27
Глава 2. Анализ программного обеспечения, направленных на
конвертацию кириллической графики на латинскую 29
1. Проект “Эйлэндеру” 29
2. Конвертер ОТИСФ КФУ
Итоги по второй главе 46
Заключение 49
Список литературы 50


Актуальность исследования. Письменность считается необходимым средством коммуникации человека. Возникновение письменности — важный этап в развитии информационных технологий. Изобретение письменности привело к информационной революции, благодаря которой появились новые возможности для обмена и передачи информации. Умение писать, как и умение читать, является одним из необходимых условий грамотности. Как известно: язык, речь - природная информационная технология, которой мы овладеваем сразу же после своего рождения. Письменность - информационная технология, позволяющая запоминать, передавать информацию другим людям, в том числе и потомкам. Даже, несмотря на появление новых средств, и технологий передачи данных, письменная коммуникация не утратила своего влияния на деятельность человека. Необходимо развивать и поддерживать письменные навыки человека в условиях внедрения информационных технологий. В настоящее время латинский алфавит знаком почти всем умеющим читать людям Земли, поскольку изучается всеми школьниками либо на уроках математики, либо на уроках иностранного языка (не говоря уже о том, что для многих языков латинский алфавит является родным), поэтому он де-факто является «алфавитом международного общения». На латинском алфавите основано большинство искусственных языков, в частности, эсперанто, идо и другие. Для всех языков с нелатинской письменностью существуют также системы записи латиницей - даже если иностранец и не знает правильного чтения, ему гораздо легче иметь дело со знакомыми латинскими буквами. В ряде стран вспомогательное письмо латиницей стандартизировано, и дети изучают его в школе. Например, в Японии и Китае. Неоднократно выдвигалась идея перевода всех языков на латинское письмо. Например, сторонником глобальной латинизации был известный датский лингвист Отто Есперсен. Запись латиницей в ряде случаев диктуется техническими трудностями:
международные телеграммы всегда писались латиницей; в сети Интернет можно встретить запись русского языка латиницей из-за отсутствия поддержки кириллицы. Для того чтобы выжить и развиваться в настоящее время любой язык, также и татарский, должен войти в компьютерные технологии как язык хранения, обработки и передачи информации
Рассмотрим письменность, как первую информационную технологию. Способность представлять устную речь с помощью символов для длительного хранения вывела информацию за пределы индивидуальной памяти. В наше время в промышленно развитых странах эта технология стала вездесущей. Постоянное фоновое присутствие этих продуктов «технологий грамотности» не требует активного внимания, но передаваемая ими информация готова к тому, чтобы мы воспользовались ею. Иными словами письменность имеет настолько тесную связь с информационными технологиями, что воспринимать информацию из окружающего мира, таким образом, становится легче и быстрее. Поэтому необходимо развивать и поддерживать письменные навыки человека в условиях внедрения информационных технологий.
В Республике Татарстан (РТ) ведутся масштабные работы по сохранению и развитию языка как основы татарской письменности. РТ является одним из лидирующих субъектов федерации по темпам компьютеризации и информатизации. Государственные структуры РТ, а также энтузиасты вовлечены в процесс разработки различных проектов, цель которых - интеграция татарского языка и культуры с информационнокоммуникационными технологиями. Поисковая система Google начала поддерживать поиск информации на татарском языке. Разработана татарская версия операционной системы Windows XP, Vista, 7. В республике функционирует, портал Правительства Республики Татарстан (работает на двух государственных языках республики). Академией наук РТ был опубликован англо-русско-татарский словарь компьютерных терминов. В нем представлены более 7000 компьютерных терминов, переведенных на
татарский язык. В 90-х годах была проведена работа по введению татарских символов в состав кодировок разных стандартов. Универсальная кодировка Unicode - наиболее распространённая кодировка наших дней - имеет набор татарских символов по умолчанию.
Стоит отметить, что также ведутся работы по поддержке использования татарского языка для разных алфавитов.
На данном этапе алфавит народов Татарстана имеет кириллическую графику. Однако за свою историю татарский язык несколько раз менял свою письменность.
• Арабское письмо - до 1927 года. Данным видом письма пользуются немногочисленные татары Китая и в наше время.
• Латиница - в 1927-1939 годах. В настоящее время Латиницу используют татары Турции, Финляндии, Чехии, Польши, США и Австралии.
• Кириллица - с 1939 года по настоящее время. Крещеные татары пользовались кириллицей с XIX века.
Данную письменность пытались возродить на рубеже ХХ-ХХ1 веков. В тридцатые годы 20 века был принят новый алфавит “Яцалиф”, который позволил показать положительные стороны использования латинской графики в татарском языке, а именно:
• Стало проще усваивать европейские языки;
• Сохранилось возможность чтения книг, понимания между собой среди тюркских языков еще со времен использования арабской графики. Так как после принятия единой графики многие книги были переведены и написаны с использованием латинских букв.
Использование единой графики выгодно с точки зрения межкультурного взаимодействия, так как латиница позволяет сохранить обычаи и традиции, язык народа.
В ситуации, когда параллельно происходит использование двух
алфавитов — латиницы и кириллицы — возникает необходимость в
конвертации сообщений между двумя типами график. Разрабатывается
5
специальное программное обеспечение, предназначенное для конвертации текстов на татарском языке с кириллицы на латиницу. Однако постоянно меняющиеся правила использования латиницы на татарском языке приводит к неточностям при обработке татарских текстов программными средствами. Возникает необходимость в исследовании возможностей программного обеспечения и выявления уровня точности конвертации татарских текстов.
Исходя из этого, была поставлена цель нашей работы - сравнить качество обработки татарских текстов различными прикладными программными средствами, направленных на конвертацию с кириллической графики на латинскую.
Задачи исследования:
1. Изучить особенностей и теоретических основ использования латинской графики в татарском языке в хронологическом аспекте;
2. Изучить аспекты конвертации татарской кириллицы в татарскую латиницу;
3. Исследовать рынок программных средств, предназначенных для конвертации татарских текстов с кириллицы на латиницу;
4. Разработать систему тестов для проверки качества работы ПО, провести тестирование и интерпретировать результаты.
Объект исследования - латинская графика для татарского языка и компьютерная обработка естественного языка.
Предмет исследования - анализ качественных параметров
программного обеспечения, направленного на конвертацию кириллической графики на латиницу для татарского языка.
Структура работы определяется поставленной целью и
сформулированными задачами. Объем работы составляет 55 страниц. Исследование состоит из введения, двух глав, заключения, списка использованных источников (44 наименования).


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Таким образом, за свою историю татарский язык несколько раз менял свою письменность:
• Арабское письмо - до 1927 года. Данным видом письма пользуются немногочисленные татары Китая и в наше время.
• Латиница - в 1927-1939 годах. В настоящее время Латиницу используют татары Турции, Финляндии, Чехии, Польши, США и Австралии.
• Кириллица - с 1939 года по настоящее время. Крещеные татары пользовались кириллицей с XIX века.
Латинская графика в татарском языке функционировала в 30-е гг. прошлого столетия. На смену арабской вязи, просуществовавшей на протяжении целого тысячелетия, пришла латиница. Пришедшая в 1939 году на смену латинской графике кириллица не соответствовала специфике татарского языка, хотя лингвистам удалось отстоять наиболее приемлемый вариант алфавита и орфографии, включив в алфавит специальные буквы для обозначения татарских звуков э, е, у, Ж, Ц, h.
Татарский алфавит Яцалиф-2был разработан известным лингвистом, профессором Х.Х. Салимовым и отредактирован академиком М.З. Закиевым. Новый вариант алфавита и правила орфографии неоднократно обсуждались также коллективом ученых, при участии представителей СМИ, учителей средних школ, писателей и др.
Основное и наиболее значимое преимущество “Яцалиф-2” - это отсутствие ненужных буквенных знаков, таких как я, ю, ё, ь, ъ и др., сокращенное количество букв (34), каждая фонема языка должна быть представлена в алфавите отдельной буквой.
Для анализа нами были изучены программные средства, предназначенные для конвертации с кириллицы на латиницу. Первой разработкой, направленной на конвертацию татарских текстов с кириллицы на латиницу, является проект «Эйлэндеру». Проект был создан и разработан программистом Динаром Курбановым.Ресурс предоставляет 9 принципов конвертации, каждый из которых не дает сбоев.
Еще одним программным обеспечением, позволяющим производить кириллико-латинскую конвертацию татарских текстов, является конвертер, разрабатываемый на базе кафедры Образовательных технологий и информационных систем в филологии Казанского федерального университета. Программное обеспечение позволяет конвертировать татарские тексты с кириллицы на латиницы согласно актуальному стандарту.
На данный момент можем сказать, что цель, поставленная в начале работы, выполнена. Мы проанализировали качество обработки татарских текстов прикладными программными средствами, направленными на конвертацию с кириллической графики на латинскую. Задачи в процессе исследования конвертера были выполнены и изучен принцип работы таких ресурсов, как проект «Эйлэндеру», а также конвертер, разрабатываемый на базе кафедры ОТИСФ КФУ. Нам удалось разработать систему тестов для проверки качества работы конвертера.
Результаты теста конвертера показывают, что наивысшую точность конвертации показал конвертер и применением наивного байесовского классификатора. Однако, в первой серии тестов все рассматриваемые методы показали низкую скорость работы, связанную с применением сторонних разработок, в первую очередь, морфологического анализатора. Вторая серия тестов, где проводилась обработка аналогичного текста, но без обращения к морфоанализатору, показала высокую скорость работы, т.е мы наблюдали высокую скорость без значительных потерь в качестве перевода.



1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика // Большакова Е.И. и др. - М.: МИЭМ, 2011. - 272 с.
2. Актуальные проблемы национально-языковой жизни в
Татарстане (соавт.М.З.Закиев) // Языковая ситуация в РФ: 1992.- М., 1992. - С.82-88.
3. Гильмуллин А.А. К гипотезе глубины Ингве / А.А. Гильмуллин // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-95». Казань, 1995. - С. 111-121.
4. Гречников Е.А.(2001). Поиск неестественных текстов.
Proceedings of VLDB-2001
5. Денмухаметова Э. Н., Набиуллина Г. А. Вопросы герменевтики в татарских переводных текстах //Альманах современной науки и образования.
- 2009. - №. 11-2. - С. 135-136.
6. Едиханов И.Ж. Межкультурная коммуникация в переводном тексте (на материале произведения татарского писателя З.Зайнуллина) // Филологические науки. Вопросы теории и практики. Тамбов: Грамота, 2013.
- № 11 (29). - Ч. 2. - С. 93-95.
7. Жеребило Т.В. Словарь лингвистических терминов. Изд. 5-е, испр. и доп. - Назрань: ООО «Пилигрим», 2010. - 486 с.
8. Зайнуллин Г.Г. Татарская азбука на основе арабской графики (Са
моучитель) = Г арэп язуы нигезендэ татарча элифба
(узлегеннэн ейрэнучелэр ечен). — Казан: Татар.кит. нэшр., 1989. - 112 с.
9. Закиев М.З. Тюрко-татарское письмо. История, состояние, перспективы. - М.: Инсан, 2005.
10. Закиев М., Байрамова Л.К., Юсупов Р.А. Двуязычие и
гармонизация межнациональных отношений в Татарстане // Возрождение культуры России: Язык и этнос. - С.-Пб. 1995. - С. 31-68
11. Замалетдинов Р.Р., Замалетдинова Г. . О поликультурном образовании в сфере высшего профессионального образования Республики Татарстан: состояние и перспективы //Филология и культура. - 2012. - №. 1.
12. История татар. Том I. Народы степной Евразии в древности. — Казань: Изд-во «Рухият», 2002. - 552 с.
13. История татар. Том II. Волжская Булгария и Великая Степь. — Казань: Изд-во «РухИЛ», 2006. - 960 с.
14. История татар. Том III. Улус Джучи (Золотая Орда). XIII - середина XV в. — Казань: Институт истории АН РТ, 2009. - 1056 с.
15. История татар. Том IV. Татарские государства XV-XVIII вв. — Казань: Институт истории АН РТ, 2014. - 1080 с. + 32 с. цв. вкл.
16. История татар. Том V. Татарский народ в составе Российского государства (вторая половина XVI - XVIII вв.). — Казань: Институт истории АН РТ, 2014. - 1032 с. + 80 с. цв. вкл.
17. История татар. Том VI. Формирование татарской нации. XIX - начало XX в. — Казань: Институт истории АН РТ, 2013. - 1172 с. + 64 с. вкл.
18. История татар. Том VII. Татары и Татарстан в XX - начале XXI в. — Казань: Институт истории АН РТ, 2013. - 1008 с. + 64 с. вкл.
19. Максимов Н.В. Роль калькирования в развитии лексики
современного татарского литературного языка: автореф. дис. на соискание уч. степени канд. филол. наук: спец. 10.02.02.«Языки народов
СССР(татарский язык)».- Казань,1991.
20. Мирзагитова А. Реализация статистического машинного перевода на основе параллельного татарско-русского корпуса юридических текстов / А. Мирзагитов // Proceedings of the International Conference "Turkic languages processing: TurkLang-2015". - Казань: Изд-во Академии наук Республики Татарстан, 2015. - С. 39-49.
21. Набиуллина Г.А. К вопросу о синтаксических трансформациях
при переводе художественной литературы // Переводоведение в XXI веке: проблемы и перспективы: материалы международного заочного научнометодического семинара (АГИМС, 17-19 декабря 2012 г.). -Альметьевск: ИИЦ АГИМС, 2012. -С. 32-35.
22. Набиуллина Г.А., Сабирова Р.Р. К вопросу о синтаксических трансформациях при переводе информационных текстов // Альманах современной науки и образования. -Тамбов: Грамота, 2014. -№ 5-6. -С. 99101.
23. Ожегов С.И., Шведова Н.Ю. Толковый словарь русского языка. - М, 2011. - Т. 199.
24. Потемкин С.Б. Проблемы разработки параллельного корпуса переводов русской классики // Вестник Военного университета. - 2012. - № 2. - С. 138-145.
25. Розенцвейг В.Ю. основные вопросы теории языковых контактов // Новое в лингвистике.вып. vI. языковые контакты. -М., 1972. - С. 5-24.
26. Селезнев К. бработка текстов на естественном языке // Открытые системы,-2003. -#12
27. Сибирцева В. Технология использования параллельного подкорпуса Национального корпуса русского языка и коллекций текстов в обучении иностранным языкам / В. Сибирцева // Rocznik Instytutu Polsko- Rosyjskiego. - 2013.-№ 2 (5). - С. 104-110.
28. Сулейманов Д.Ш. Синтаксический анализатор предложений татарского языка / Д.Ш. Сулейманов, А.Р. Гатиатуллин // Труды Математического центра имени Н. И. Лобачевского. - Казань, 1999. - Т. 4.- С. 111-126.
29. Татарстан З.Р. О языках народов Республики Татарстан //Сов. Татария. - 1992.
30. Топурия В.Ф. Особенности перевода научных текстов /
В.Ф. Топурия // Язык и культура. - 2015. -№ 20. - С. 84-92.
31. Утюжникова О. А. Перевод информационных текстов новостей
из интернета // Вестник Челябинского государственного университета. -2009. -№ 34. -С. 125-130.
32. Харисов Ф.Ф. О проблемах двуязычия в Татарстане // Русский язык. -2001. -№15.
33. Хурматуллина Р.Ш. Методические указания и задания по развитию речи для начинающих изучать татарский язык/ Р.Ш.Хурматуллина, Г.Б.Шамарова. - Набережные Челны: Издательско-полиграфический центр Набережночелнинского института К(П)ФУ, 2015. -52с.
34. Шарыпова Н.Х. Двуязычие в Татарстане: дис. - Казань: [Казан.гос. пед. ун-т], 2004. - 373 с.
35. Шафигулина И.Ф. Система образования в условиях развития двуязычия в Татарстане //Вестник Челябинского государственного педагогического университета. - 2011. - №. 10.
36. Юсупов Р. А. Вопросы перевода, сопоставительной типологии и культуры речи. -Казань: Татар.кн. изд-во, 2005. -383 с.
б) на татарском языке:
37. Нэбиуллина Г.Э. Тэрж;емэ практикасы: эдэби hsM фольклор тэрж;емэлэре. Югары уку йортлары ечен укыту кулланмасы / Г.Э. Нэбиуллина, Г.Р. Мегътэсимова. - Казань: Ихлас, 2012. - 91 б.
38. Нурмехэммэтова Р.С. Тэрж;емэ белеменец теоретик нигезлэре: укыту-методик ярдэмлек / Р.С. Нурмехэммэтова. - Казан, 2010. - 164 б.
39. Хаков В.Х. Телен белгэн ил ачар: Латин графикасында уку hэм язу кунекмэлэре// Издательство Мэгариф, Казань,1993.
II. Интернет-ресурсы
40. Этимология//Википедия, свободная энциклопедия. URL:
Шр8://ги.’шк1реб1а.ог§Ашк1/Этимология (дата обращения 21.04.2018).
41. Конституция РТ. URL:
http://www.gossov.tatarstan.ru/konstitucia(дата обращения 30.04.2018).
42. Татарская письменность//Википедия, свободная энциклопедия. URL: Шр8://ги.’шк1реё1а.ог§/’шк1/Татарская_письменноеть (дата обращения
21.04.2018) .
43. Закон РТ «Об использовании татарского языка как государственного языка республики Татарстан» //URL: http://www.gossov.tatarstan.ru/fs/site_documents_struc/zakon/2692_file_1_2013ru s_ru.pdf (дата обращения 21.04.2018).
44. Национальный корпус татарского языка // URL: http://tatcorp.antat.ru/disam/ (Дата обращения: 24:04:2018).


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ