Тема: Создание нейросетевого фильтра корпусных данных для языков кириллической письменности
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 3
Глава 1. Проблема создания параллельных корпусов для близкородственных языков 7
1.1 Определение параллельного корпуса 7
1.2 Автоматический сбор данных. Трудности при создании параллельных
корпусов 9
1.3 Библиотеки для классификации и работа в Colab 15
1.4 Использование нейронных сетей для классификации языков 19
1.5 Метрики оценки данных многоклассовой классификации 27
1.6 Выводы к главе 1 29
Глава 2. Экспериментальное исследование 31
2.1 Описание эксперимента 31
2.2 Описание данных 33
2.3 Эксперименты с библиотеками 37
2.3.1 Pycld2 38
2.3.2 LangID 39
2.3.3 FastText 41
2.3.4 Fasttext-Langdetect 43
2.3.5 Результаты 44
2.4 Эксперименты с нейронными сетями 45
2.4.1 CNN 47
2.4.2 LSTM 49
2.4.3 GRU 51
2.4.4 Результаты 53
2.5 Трансформер 54
2.6 Выводы к главе 2 59
Заключение 61
Список использованной литературы 63
Приложение 1 Слои архитектур CNN, LSTM, GRU 70
Приложение 2 Параметры для архитектуры TransformerTiny 74
📖 Введение
За последние годы, системы, основанные на правилах и статистике, активно заменяются на нейросетевые алгоритмы. Компании используют различные архитектуры для выполнения данных целей, начиная с простых CNN, заканчивая более продвинутыми архитектурами с механизмами внимания - трансформерами. Для полной автоматизации системы машинного перевода необходимо также автоматизировать классификацию вводимых языков, так как от этого будет зависеть весь процесс. Классификаторы, представленные для языков латинского алфавита, показывают высокую точность определения, но для языков кириллического алфавита такие алгоритмы демонстрируют низкую эффективность, а для отдельных языков и вовсе отсутствуют.
Актуальность работы связана с отсутствием высокоэффективных моделей для определения языков кириллического алфавита. Классификация языков - важный элемент не только в процессе перевода, но и в других лингвистических исследованиях. Данная работа рассматривает различные алгоритмы, как простые статистические, так и сложные, основанные на различных архитектурах нейронных сетей.
Новизна исследования заключается в представлении нового алгоритма классификации языков кириллического алфавита. В данном исследовании проведены эксперименты по выявлению наилучшего метода токенизации текстов для дальнейшего обучения модели, а также сравнение различных моделей в соответствии с точностью определения языков.
Гипотеза исследования заключается в том, что существующие библиотеки и классификаторы языков недостаточно обучены на языках кириллического алфавита, или не обучены вовсе. Точность определения можно повысить за счет использования новых подходов обработки данных и применения более сложных алгоритмов, например, нейронных сетей. Токенизация текстов - важный процесс предобработки данных, который может повлиять на работу алгоритмов и значительно улучшить их. Выбор архитектуры нейронной сети и способа обработки данных способствуют повышению качества работы классификатора.
Объектом исследования является процесс классификации лингвистических данных. Предметом исследования является процесс классификации языков кириллического алфавита. В данном исследовании рассматривается семь языков кириллического алфавита.
Цель исследования: разработать, обучить и внедрить нейросетевой классификатор для языков кириллического алфавита.
Задачи исследования:
1. Описать процесс сбора и подготовки лингвистических данных;
2. Описать основные характеристики параллельного корпуса языков;
3. Изучить существующие библиотеки для классификации языков;
4. Описать архитектуры нейросетей, используемых для обработки текстовых данных;
5. Подготовить наборы эталонных и сырых данных для проведения экспериментов;
6. Выбрать метрики оценки данных;
7. Провести эксперименты;
8. Описать результаты исследования.
...
✅ Заключение
В настоящий момент тяжело представить жизнь без использования алгоритмов глубинного обучения. Поэтому применение таких алгоритмов для решения сложных лингвистических задач является целесообразным.
В данной работе был описан процесс создания классификатора языков кириллического алфавита. Лингвистическая часть исследования включала в себя сбор и обработку корпусов текстов, техническая часть заключалась в проведении экспериментов как с существующими алгоритмами для классификации языков, так и создание новых, основанных на нейронных сетях. В зависимости от алгоритма обработка данных могла включать в себя посимвольную, BPE или SentencePiece токенизацию, а также деление данных на тренировочные, оценочные и тестовые. Целью исследования являлось выявление алгоритма, который наиболее точно может классифицировать языки кириллического алфавита. Для выполнения этой цели было отобрано 4 библиотеки на языке Python, три архитектуры нейросети и одна архитектура трансформер.
Для достижения поставленной цели нами были описаны лингвистические данные, необходимые для обучения моделей, а также способы их обработки. Нами были рассмотрены существующие библиотеки классификации языков, а также предложены модели, базирующиеся на сложных нейросетевых алгоритмах.
По результатам исследования, наиболее высокие результаты были получены в парах «нейронная сеть и BPE токенизация». Лучшей моделью оказалась TransformerTiny.
Результаты проведенного исследования способствуют улучшению существующих языковых моделей. Обученные модели могут быть полезны как в системах машинного перевода, так и в современных LLM моделях. Перспективным направлением исследования будет являться продолжение сбора данных и обучения модели для таких языков, как: киргизский, македонский, монгольский, а также малочисленных языков и диалектов.
Для практического применения результатов исследования предлагается опубликовать на открытых платформах обученные модели: LSTM, и TransformerTiny.





