АНАЛИЗ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ, НАПРАВЛЕННОГО НА КОНВЕРТАЦИЮ КИРИЛЛИЧЕСКОЙ ГРАФИКИ НА ЛАТИНИЦУ ДЛЯ ТАТАРСКОГО ЯЗЫКА
|
Введение 3
Глава 1. Латинская графика в татарском языке 7
1. Особенности латинской графики для татарского языка
2. Теоретические основы использования латинской графики в
татарском языке 7
Итоги по первой главе 27
Глава 2. Анализ программного обеспечения, направленных на
конвертацию кириллической графики на латинскую 29
1. Проект “Эйлэндеру” 29
2. Конвертер ОТИСФ КФУ
Итоги по второй главе 46
Заключение 49
Список литературы 50
Глава 1. Латинская графика в татарском языке 7
1. Особенности латинской графики для татарского языка
2. Теоретические основы использования латинской графики в
татарском языке 7
Итоги по первой главе 27
Глава 2. Анализ программного обеспечения, направленных на
конвертацию кириллической графики на латинскую 29
1. Проект “Эйлэндеру” 29
2. Конвертер ОТИСФ КФУ
Итоги по второй главе 46
Заключение 49
Список литературы 50
Актуальность исследования. Письменность считается необходимым средством коммуникации человека. Возникновение письменности — важный этап в развитии информационных технологий. Изобретение письменности привело к информационной революции, благодаря которой появились новые возможности для обмена и передачи информации. Умение писать, как и умение читать, является одним из необходимых условий грамотности. Как известно: язык, речь - природная информационная технология, которой мы овладеваем сразу же после своего рождения. Письменность - информационная технология, позволяющая запоминать, передавать информацию другим людям, в том числе и потомкам. Даже, несмотря на появление новых средств, и технологий передачи данных, письменная коммуникация не утратила своего влияния на деятельность человека. Необходимо развивать и поддерживать письменные навыки человека в условиях внедрения информационных технологий. В настоящее время латинский алфавит знаком почти всем умеющим читать людям Земли, поскольку изучается всеми школьниками либо на уроках математики, либо на уроках иностранного языка (не говоря уже о том, что для многих языков латинский алфавит является родным), поэтому он де-факто является «алфавитом международного общения». На латинском алфавите основано большинство искусственных языков, в частности, эсперанто, идо и другие. Для всех языков с нелатинской письменностью существуют также системы записи латиницей - даже если иностранец и не знает правильного чтения, ему гораздо легче иметь дело со знакомыми латинскими буквами. В ряде стран вспомогательное письмо латиницей стандартизировано, и дети изучают его в школе. Например, в Японии и Китае. Неоднократно выдвигалась идея перевода всех языков на латинское письмо. Например, сторонником глобальной латинизации был известный датский лингвист Отто Есперсен. Запись латиницей в ряде случаев диктуется техническими трудностями:
международные телеграммы всегда писались латиницей; в сети Интернет можно встретить запись русского языка латиницей из-за отсутствия поддержки кириллицы. Для того чтобы выжить и развиваться в настоящее время любой язык, также и татарский, должен войти в компьютерные технологии как язык хранения, обработки и передачи информации
Рассмотрим письменность, как первую информационную технологию. Способность представлять устную речь с помощью символов для длительного хранения вывела информацию за пределы индивидуальной памяти. В наше время в промышленно развитых странах эта технология стала вездесущей. Постоянное фоновое присутствие этих продуктов «технологий грамотности» не требует активного внимания, но передаваемая ими информация готова к тому, чтобы мы воспользовались ею. Иными словами письменность имеет настолько тесную связь с информационными технологиями, что воспринимать информацию из окружающего мира, таким образом, становится легче и быстрее. Поэтому необходимо развивать и поддерживать письменные навыки человека в условиях внедрения информационных технологий.
В Республике Татарстан (РТ) ведутся масштабные работы по сохранению и развитию языка как основы татарской письменности. РТ является одним из лидирующих субъектов федерации по темпам компьютеризации и информатизации. Государственные структуры РТ, а также энтузиасты вовлечены в процесс разработки различных проектов, цель которых - интеграция татарского языка и культуры с информационнокоммуникационными технологиями. Поисковая система Google начала поддерживать поиск информации на татарском языке. Разработана татарская версия операционной системы Windows XP, Vista, 7. В республике функционирует, портал Правительства Республики Татарстан (работает на двух государственных языках республики). Академией наук РТ был опубликован англо-русско-татарский словарь компьютерных терминов. В нем представлены более 7000 компьютерных терминов, переведенных на
татарский язык. В 90-х годах была проведена работа по введению татарских символов в состав кодировок разных стандартов. Универсальная кодировка Unicode - наиболее распространённая кодировка наших дней - имеет набор татарских символов по умолчанию.
Стоит отметить, что также ведутся работы по поддержке использования татарского языка для разных алфавитов.
На данном этапе алфавит народов Татарстана имеет кириллическую графику. Однако за свою историю татарский язык несколько раз менял свою письменность.
• Арабское письмо - до 1927 года. Данным видом письма пользуются немногочисленные татары Китая и в наше время.
• Латиница - в 1927-1939 годах. В настоящее время Латиницу используют татары Турции, Финляндии, Чехии, Польши, США и Австралии.
• Кириллица - с 1939 года по настоящее время. Крещеные татары пользовались кириллицей с XIX века.
Данную письменность пытались возродить на рубеже ХХ-ХХ1 веков. В тридцатые годы 20 века был принят новый алфавит “Яцалиф”, который позволил показать положительные стороны использования латинской графики в татарском языке, а именно:
• Стало проще усваивать европейские языки;
• Сохранилось возможность чтения книг, понимания между собой среди тюркских языков еще со времен использования арабской графики. Так как после принятия единой графики многие книги были переведены и написаны с использованием латинских букв.
Использование единой графики выгодно с точки зрения межкультурного взаимодействия, так как латиница позволяет сохранить обычаи и традиции, язык народа.
В ситуации, когда параллельно происходит использование двух
алфавитов — латиницы и кириллицы — возникает необходимость в
конвертации сообщений между двумя типами график. Разрабатывается
5
специальное программное обеспечение, предназначенное для конвертации текстов на татарском языке с кириллицы на латиницу. Однако постоянно меняющиеся правила использования латиницы на татарском языке приводит к неточностям при обработке татарских текстов программными средствами. Возникает необходимость в исследовании возможностей программного обеспечения и выявления уровня точности конвертации татарских текстов.
Исходя из этого, была поставлена цель нашей работы - сравнить качество обработки татарских текстов различными прикладными программными средствами, направленных на конвертацию с кириллической графики на латинскую.
Задачи исследования:
1. Изучить особенностей и теоретических основ использования латинской графики в татарском языке в хронологическом аспекте;
2. Изучить аспекты конвертации татарской кириллицы в татарскую латиницу;
3. Исследовать рынок программных средств, предназначенных для конвертации татарских текстов с кириллицы на латиницу;
4. Разработать систему тестов для проверки качества работы ПО, провести тестирование и интерпретировать результаты.
Объект исследования - латинская графика для татарского языка и компьютерная обработка естественного языка.
Предмет исследования - анализ качественных параметров
программного обеспечения, направленного на конвертацию кириллической графики на латиницу для татарского языка.
Структура работы определяется поставленной целью и
сформулированными задачами. Объем работы составляет 55 страниц. Исследование состоит из введения, двух глав, заключения, списка использованных источников (44 наименования).
международные телеграммы всегда писались латиницей; в сети Интернет можно встретить запись русского языка латиницей из-за отсутствия поддержки кириллицы. Для того чтобы выжить и развиваться в настоящее время любой язык, также и татарский, должен войти в компьютерные технологии как язык хранения, обработки и передачи информации
Рассмотрим письменность, как первую информационную технологию. Способность представлять устную речь с помощью символов для длительного хранения вывела информацию за пределы индивидуальной памяти. В наше время в промышленно развитых странах эта технология стала вездесущей. Постоянное фоновое присутствие этих продуктов «технологий грамотности» не требует активного внимания, но передаваемая ими информация готова к тому, чтобы мы воспользовались ею. Иными словами письменность имеет настолько тесную связь с информационными технологиями, что воспринимать информацию из окружающего мира, таким образом, становится легче и быстрее. Поэтому необходимо развивать и поддерживать письменные навыки человека в условиях внедрения информационных технологий.
В Республике Татарстан (РТ) ведутся масштабные работы по сохранению и развитию языка как основы татарской письменности. РТ является одним из лидирующих субъектов федерации по темпам компьютеризации и информатизации. Государственные структуры РТ, а также энтузиасты вовлечены в процесс разработки различных проектов, цель которых - интеграция татарского языка и культуры с информационнокоммуникационными технологиями. Поисковая система Google начала поддерживать поиск информации на татарском языке. Разработана татарская версия операционной системы Windows XP, Vista, 7. В республике функционирует, портал Правительства Республики Татарстан (работает на двух государственных языках республики). Академией наук РТ был опубликован англо-русско-татарский словарь компьютерных терминов. В нем представлены более 7000 компьютерных терминов, переведенных на
татарский язык. В 90-х годах была проведена работа по введению татарских символов в состав кодировок разных стандартов. Универсальная кодировка Unicode - наиболее распространённая кодировка наших дней - имеет набор татарских символов по умолчанию.
Стоит отметить, что также ведутся работы по поддержке использования татарского языка для разных алфавитов.
На данном этапе алфавит народов Татарстана имеет кириллическую графику. Однако за свою историю татарский язык несколько раз менял свою письменность.
• Арабское письмо - до 1927 года. Данным видом письма пользуются немногочисленные татары Китая и в наше время.
• Латиница - в 1927-1939 годах. В настоящее время Латиницу используют татары Турции, Финляндии, Чехии, Польши, США и Австралии.
• Кириллица - с 1939 года по настоящее время. Крещеные татары пользовались кириллицей с XIX века.
Данную письменность пытались возродить на рубеже ХХ-ХХ1 веков. В тридцатые годы 20 века был принят новый алфавит “Яцалиф”, который позволил показать положительные стороны использования латинской графики в татарском языке, а именно:
• Стало проще усваивать европейские языки;
• Сохранилось возможность чтения книг, понимания между собой среди тюркских языков еще со времен использования арабской графики. Так как после принятия единой графики многие книги были переведены и написаны с использованием латинских букв.
Использование единой графики выгодно с точки зрения межкультурного взаимодействия, так как латиница позволяет сохранить обычаи и традиции, язык народа.
В ситуации, когда параллельно происходит использование двух
алфавитов — латиницы и кириллицы — возникает необходимость в
конвертации сообщений между двумя типами график. Разрабатывается
5
специальное программное обеспечение, предназначенное для конвертации текстов на татарском языке с кириллицы на латиницу. Однако постоянно меняющиеся правила использования латиницы на татарском языке приводит к неточностям при обработке татарских текстов программными средствами. Возникает необходимость в исследовании возможностей программного обеспечения и выявления уровня точности конвертации татарских текстов.
Исходя из этого, была поставлена цель нашей работы - сравнить качество обработки татарских текстов различными прикладными программными средствами, направленных на конвертацию с кириллической графики на латинскую.
Задачи исследования:
1. Изучить особенностей и теоретических основ использования латинской графики в татарском языке в хронологическом аспекте;
2. Изучить аспекты конвертации татарской кириллицы в татарскую латиницу;
3. Исследовать рынок программных средств, предназначенных для конвертации татарских текстов с кириллицы на латиницу;
4. Разработать систему тестов для проверки качества работы ПО, провести тестирование и интерпретировать результаты.
Объект исследования - латинская графика для татарского языка и компьютерная обработка естественного языка.
Предмет исследования - анализ качественных параметров
программного обеспечения, направленного на конвертацию кириллической графики на латиницу для татарского языка.
Структура работы определяется поставленной целью и
сформулированными задачами. Объем работы составляет 55 страниц. Исследование состоит из введения, двух глав, заключения, списка использованных источников (44 наименования).
Таким образом, за свою историю татарский язык несколько раз менял свою письменность:
• Арабское письмо - до 1927 года. Данным видом письма пользуются немногочисленные татары Китая и в наше время.
• Латиница - в 1927-1939 годах. В настоящее время Латиницу используют татары Турции, Финляндии, Чехии, Польши, США и Австралии.
• Кириллица - с 1939 года по настоящее время. Крещеные татары пользовались кириллицей с XIX века.
Латинская графика в татарском языке функционировала в 30-е гг. прошлого столетия. На смену арабской вязи, просуществовавшей на протяжении целого тысячелетия, пришла латиница. Пришедшая в 1939 году на смену латинской графике кириллица не соответствовала специфике татарского языка, хотя лингвистам удалось отстоять наиболее приемлемый вариант алфавита и орфографии, включив в алфавит специальные буквы для обозначения татарских звуков э, е, у, Ж, Ц, h.
Татарский алфавит Яцалиф-2был разработан известным лингвистом, профессором Х.Х. Салимовым и отредактирован академиком М.З. Закиевым. Новый вариант алфавита и правила орфографии неоднократно обсуждались также коллективом ученых, при участии представителей СМИ, учителей средних школ, писателей и др.
Основное и наиболее значимое преимущество “Яцалиф-2” - это отсутствие ненужных буквенных знаков, таких как я, ю, ё, ь, ъ и др., сокращенное количество букв (34), каждая фонема языка должна быть представлена в алфавите отдельной буквой.
Для анализа нами были изучены программные средства, предназначенные для конвертации с кириллицы на латиницу. Первой разработкой, направленной на конвертацию татарских текстов с кириллицы на латиницу, является проект «Эйлэндеру». Проект был создан и разработан программистом Динаром Курбановым.Ресурс предоставляет 9 принципов конвертации, каждый из которых не дает сбоев.
Еще одним программным обеспечением, позволяющим производить кириллико-латинскую конвертацию татарских текстов, является конвертер, разрабатываемый на базе кафедры Образовательных технологий и информационных систем в филологии Казанского федерального университета. Программное обеспечение позволяет конвертировать татарские тексты с кириллицы на латиницы согласно актуальному стандарту.
На данный момент можем сказать, что цель, поставленная в начале работы, выполнена. Мы проанализировали качество обработки татарских текстов прикладными программными средствами, направленными на конвертацию с кириллической графики на латинскую. Задачи в процессе исследования конвертера были выполнены и изучен принцип работы таких ресурсов, как проект «Эйлэндеру», а также конвертер, разрабатываемый на базе кафедры ОТИСФ КФУ. Нам удалось разработать систему тестов для проверки качества работы конвертера.
Результаты теста конвертера показывают, что наивысшую точность конвертации показал конвертер и применением наивного байесовского классификатора. Однако, в первой серии тестов все рассматриваемые методы показали низкую скорость работы, связанную с применением сторонних разработок, в первую очередь, морфологического анализатора. Вторая серия тестов, где проводилась обработка аналогичного текста, но без обращения к морфоанализатору, показала высокую скорость работы, т.е мы наблюдали высокую скорость без значительных потерь в качестве перевода.
• Арабское письмо - до 1927 года. Данным видом письма пользуются немногочисленные татары Китая и в наше время.
• Латиница - в 1927-1939 годах. В настоящее время Латиницу используют татары Турции, Финляндии, Чехии, Польши, США и Австралии.
• Кириллица - с 1939 года по настоящее время. Крещеные татары пользовались кириллицей с XIX века.
Латинская графика в татарском языке функционировала в 30-е гг. прошлого столетия. На смену арабской вязи, просуществовавшей на протяжении целого тысячелетия, пришла латиница. Пришедшая в 1939 году на смену латинской графике кириллица не соответствовала специфике татарского языка, хотя лингвистам удалось отстоять наиболее приемлемый вариант алфавита и орфографии, включив в алфавит специальные буквы для обозначения татарских звуков э, е, у, Ж, Ц, h.
Татарский алфавит Яцалиф-2был разработан известным лингвистом, профессором Х.Х. Салимовым и отредактирован академиком М.З. Закиевым. Новый вариант алфавита и правила орфографии неоднократно обсуждались также коллективом ученых, при участии представителей СМИ, учителей средних школ, писателей и др.
Основное и наиболее значимое преимущество “Яцалиф-2” - это отсутствие ненужных буквенных знаков, таких как я, ю, ё, ь, ъ и др., сокращенное количество букв (34), каждая фонема языка должна быть представлена в алфавите отдельной буквой.
Для анализа нами были изучены программные средства, предназначенные для конвертации с кириллицы на латиницу. Первой разработкой, направленной на конвертацию татарских текстов с кириллицы на латиницу, является проект «Эйлэндеру». Проект был создан и разработан программистом Динаром Курбановым.Ресурс предоставляет 9 принципов конвертации, каждый из которых не дает сбоев.
Еще одним программным обеспечением, позволяющим производить кириллико-латинскую конвертацию татарских текстов, является конвертер, разрабатываемый на базе кафедры Образовательных технологий и информационных систем в филологии Казанского федерального университета. Программное обеспечение позволяет конвертировать татарские тексты с кириллицы на латиницы согласно актуальному стандарту.
На данный момент можем сказать, что цель, поставленная в начале работы, выполнена. Мы проанализировали качество обработки татарских текстов прикладными программными средствами, направленными на конвертацию с кириллической графики на латинскую. Задачи в процессе исследования конвертера были выполнены и изучен принцип работы таких ресурсов, как проект «Эйлэндеру», а также конвертер, разрабатываемый на базе кафедры ОТИСФ КФУ. Нам удалось разработать систему тестов для проверки качества работы конвертера.
Результаты теста конвертера показывают, что наивысшую точность конвертации показал конвертер и применением наивного байесовского классификатора. Однако, в первой серии тестов все рассматриваемые методы показали низкую скорость работы, связанную с применением сторонних разработок, в первую очередь, морфологического анализатора. Вторая серия тестов, где проводилась обработка аналогичного текста, но без обращения к морфоанализатору, показала высокую скорость работы, т.е мы наблюдали высокую скорость без значительных потерь в качестве перевода.



