Тип работы:	Предмет:	Язык работы:

СНЯТИЕ ГРАММАТИЧЕСКОЙ НЕОПРЕДЕЛЁННОСТИ ДЛЯ РУССКОГО ЯЗЫКА НА ОСНОВЕ АНАЛИЗА МНОЖЕСТВЕННЫХ РЕЗУЛЬТАТОВ ГЕНЕРАТИВНОЙ МОДЕЛИ

Работа №	189891
Тип работы	Бакалаврская работа
Предмет	математика и информатика
Объем работы	38
Год сдачи	2024
Стоимость	4380 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	15

Не подходит работа?

Узнай цену на написание

Содержание

АННОТАЦИЯ 3
ВВЕДЕНИЕ 3
1 Генеративные модели 4
1.1 Разновидности нейронных сетей 4
1.2 Генеративные модели 6
1.2.1 GPT-модели (Generative Pre-trained Transformer) 7
2 Transformer 10
2.1 Transformer - модель машинного обучения 10
2.1.1 Архитектура сети Transformer 10
2.1.2 Внутреннее внимание 13
2.2 Функции библиотеки Transformers 14
3 Грамматическая неопределённость в русском языке 15
4 Prompt-engineering 16
5 Анализ тестов 18
5.1 Скрипт 18
5.2 Тестирование 21
ЗАКЛЮЧЕНИЕ 34
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 35

Введение

Задача - определить способы снятия грамматических неопределённостей русского языка на основе анализа множественных результатов генеративной модели.
Грамматическая неопределенность является серьезной проблемой для обработки естественного языка, особенно для языков с богатой морфологией и синтаксической гибкостью, таких как русский. Это связано с тем, что одна и та же последовательность слов может иметь несколько грамматически корректных интерпретаций, что приводит к неоднозначности и ошибкам при автоматической обработке текста.
Снятие грамматической неопределенности имеет большое значение для различных NLP-приложений, включая машинный перевод, чат-боты, информационный поиск и извлечение информации из текста.
Развитие машинного обучение из года в год лишь ускоряется.
Генеративное моделирование - тип алгоритма машинного обучения, который способен изучать закономерности и зависимости во входных данных. Целью этих алгоритмов является генерация новых данных, которые похожи на исходные, но при этом отличаются уникальными и ранее невиданными характеристиками.
Генеративные модели способны генерировать несколько альтернативных вариантов грамматически корректных предложений для некоторой входной последовательности. Эти результаты можно использовать для статистического определения наиболее вероятной интерпретации, принимая во внимание контекст и другие лингвистические подсказки. Кроме того, в зависимости от входных данных альтернативы начинают приобретать те или иные признаки, то есть составление правильного промпта - важная часть исследования.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

Грамматическая неопределённость - омонимия - русского языка оказалась сложной проблемой для обработки естественного языка, требующей внимательного изучения. Для корректной обработки данных была выбрана модель ruGPT, полностью повторяющая архитектуру GPT-2, но обученная на русскоязычных текстах.
Так как модели GPT в принципе не содержат в себе никакой грамматической информации, подход для определения падежей слов был построен на основе нового направления - prompt-engineering’а. Скрипт формировал несколько альтернативных предложений, основываясь на входных данных, которые подстраивались определённым образом, чтобы добиться на выходе получения числительного в необходимой для данного предложения форме.
Было опробовано несколько подходов, которые показывали себя по- разному. Наилучшим из них оказался подход формирования «проблемной» точки предложения в различных падежах - то есть числительное, форму которого необходимо было определить, подавалось перед предложением в разных падежах с привязанными словами для более точной формулировки.
В результате формировались альтернативы с прописной формой числительного, среди которых преобладала нужная форма этого числительного.
Иные подходы показывали себя либо сильно хуже, либо спорно и неустойчиво (формируя подходящие альтернативы в одних случаях и не формируя их в других).

Литература

1. Фостер Дэвид «Генеративное глубокое обучение. Творческий потенциал нейронных сетей» / Д. Фостер - СПб. : Питер М., 2020. - 336с. ил.
2. Attention is all you need [Электронный ресурс] // URL: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845a a-Paper.pdf (дата обращения 29.05.2024).
3. GPT-2 [Электронный ресурс] // WikipediA. The Free Encyclopedy - 2024. - URL: https://en.wikipedia.org/wiki/GPT-2 (дата обращения 29.05.2024).
4. GPT-3 [Электронный ресурс] // WikipediA. The Free Encyclopedy - 2024. - URL: https://en.wikipedia.org/wiki/GPT-3 (дата обращения 29.05.2024).
5. Prompt engineering [Электронный ресурс] // WikipediA/ The Free Encyclopedia - 2024. - URL: https://en.wikipedia.org/wiki/Prompt engineering (дата обращения 29.05.2024).

Скриншоты

Содержание бакалаврской работы

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Логин
Пароль

СНЯТИЕ ГРАММАТИЧЕСКОЙ НЕОПРЕДЕЛЁННОСТИ ДЛЯ РУССКОГО ЯЗЫКА НА ОСНОВЕ АНАЛИЗА МНОЖЕСТВЕННЫХ РЕЗУЛЬТАТОВ ГЕНЕРАТИВНОЙ МОДЕЛИ

Тип работы

Бакалаврская работа

Предмет

математика и информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

15