Тема: СНЯТИЕ ГРАММАТИЧЕСКОЙ НЕОПРЕДЕЛЁННОСТИ ДЛЯ РУССКОГО ЯЗЫКА НА ОСНОВЕ АНАЛИЗА МНОЖЕСТВЕННЫХ РЕЗУЛЬТАТОВ ГЕНЕРАТИВНОЙ МОДЕЛИ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 3
1 Генеративные модели 4
1.1 Разновидности нейронных сетей 4
1.2 Генеративные модели 6
1.2.1 GPT-модели (Generative Pre-trained Transformer) 7
2 Transformer 10
2.1 Transformer - модель машинного обучения 10
2.1.1 Архитектура сети Transformer 10
2.1.2 Внутреннее внимание 13
2.2 Функции библиотеки Transformers 14
3 Грамматическая неопределённость в русском языке 15
4 Prompt-engineering 16
5 Анализ тестов 18
5.1 Скрипт 18
5.2 Тестирование 21
ЗАКЛЮЧЕНИЕ 34
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 35
📖 Введение
Грамматическая неопределенность является серьезной проблемой для обработки естественного языка, особенно для языков с богатой морфологией и синтаксической гибкостью, таких как русский. Это связано с тем, что одна и та же последовательность слов может иметь несколько грамматически корректных интерпретаций, что приводит к неоднозначности и ошибкам при автоматической обработке текста.
Снятие грамматической неопределенности имеет большое значение для различных NLP-приложений, включая машинный перевод, чат-боты, информационный поиск и извлечение информации из текста.
Развитие машинного обучение из года в год лишь ускоряется.
Генеративное моделирование - тип алгоритма машинного обучения, который способен изучать закономерности и зависимости во входных данных. Целью этих алгоритмов является генерация новых данных, которые похожи на исходные, но при этом отличаются уникальными и ранее невиданными характеристиками.
Генеративные модели способны генерировать несколько альтернативных вариантов грамматически корректных предложений для некоторой входной последовательности. Эти результаты можно использовать для статистического определения наиболее вероятной интерпретации, принимая во внимание контекст и другие лингвистические подсказки. Кроме того, в зависимости от входных данных альтернативы начинают приобретать те или иные признаки, то есть составление правильного промпта - важная часть исследования.
✅ Заключение
Так как модели GPT в принципе не содержат в себе никакой грамматической информации, подход для определения падежей слов был построен на основе нового направления - prompt-engineering’а. Скрипт формировал несколько альтернативных предложений, основываясь на входных данных, которые подстраивались определённым образом, чтобы добиться на выходе получения числительного в необходимой для данного предложения форме.
Было опробовано несколько подходов, которые показывали себя по- разному. Наилучшим из них оказался подход формирования «проблемной» точки предложения в различных падежах - то есть числительное, форму которого необходимо было определить, подавалось перед предложением в разных падежах с привязанными словами для более точной формулировки.
В результате формировались альтернативы с прописной формой числительного, среди которых преобладала нужная форма этого числительного.
Иные подходы показывали себя либо сильно хуже, либо спорно и неустойчиво (формируя подходящие альтернативы в одних случаях и не формируя их в других).





