Тема: ОПРЕДЕЛЕНИЕ СПОСОБА ЗАПУСКА ГЕНЕРАТИВНОЙ МОДЕЛИ GPT-3 С ВОЗМОЖНОСТЬЮ ДОСТУПА КО ВНУТРЕННИМ СТРУКТУРАМ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Генеративные модели нейронных сетей 5
1.1 Процесс обучения 5
1.2 Общая постановка задачи 7
1.3 Основные подходы к генеративным моделям 9
1.4 Особенности генеративных моделей 10
2 Архитектура «Трансформер» 13
2.1 Кодировщик (encoder) 14
2.2 Декодировщик (decoder) 15
3 Механизм внимания 17
3.1 Внимание на основе масштабированного скалярного произведения 18
3.2 «Многоголовое» внимание 20
3.3 Механизм внутреннего внимания 21
4 GPT-модели 24
4.1 BERT 26
4.2 Transformer-XL 27
4.3 XLNet 27
4.4 CTRL 27
4.5 PEGASUS 27
4.6 Т5 28
4.7 YaLM 28
4.8 RuGPT-3 28
ЗАКЛЮЧЕНИЕ 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 33
ПРИЛОЖЕНИЕ А ЛИСТИНГ ПРОГРАММЫ 37
📖 Введение
Компьютерная лингвистика (КЛ) - междисциплинарная область знаний, применяющая методы и инструменты таких наук, как лингвистика, математика, информатика (Computer Science) и искусственный интеллект (Artificial Intelligence).
КЛ имеет тесную связь с областью искусственного интеллекта (ИИ), в рамках которой разрабатываются программные модели отдельных интеллектуальных функций. Общим для указанных наук является компьютерное моделирование как основной способ и итоговая цель исследований, а также эвристический характер многих применяемых методов.
В настоящее время активно развивается такая сфера применения компьютерной лингвистики как распознавание и синтез звучащей речи. Это связано с повышением интереса к изучению интеллектуальных форм взаимодействия человека и компьютера, одним из наиболее перспективных на данный момент видом которого считается взаимодействие человека и компьютера при помощи голосовых команд. Таким образом наиболее актуальным видом интеллектуальных систем являются автоматизированные системы обработки, анализа и синтеза речевых сигналов.
Данные системы сталкиваются с возникновением словесных ошибок, поэтому появляется необходимость в исследовании методов их решения. Одним из таких методов может быть применение генеративных языковых моделей нейронных сетей. Генеративная модель «ChatGPT» является прорывом в области обработки естественного языка. Эта модель является специально созданным для применения в чат-ботах вариантом модели «GPT-3». Тем не менее, устройство этих моделей не доступно напрямую для изучения. Доступ к их внутренней структуре открывает возможности для исследований решения проблем обработки, анализа и синтеза речевых сигналов.
Целью работы является найти способ запуска генеративной модели GPT-3 с возможностью доступа ко внутренним структурам.
В рамках достижения цели сформулированы следующие задачи:
1. Изучить особенности генеративных моделей нейронных сетей.
2. Проанализировать особенности архитектуры GPT-моделей.
3. Определить требования к модели, необходимые для исследования.
4. Протестировать возможные альтернативы и выбрать наиболее соответствующую требованиям модель.
✅ Заключение
Повышение интереса к такому виду интеллектуальных форм взаимодействия человека и компьютера, как общение с помощью голосовых команд, делает автоматизированные системы обработки, анализа и синтеза речевых сигналов как никогда актуальными. Подобные системы сталкиваются с возникновением словесных ошибок, требующих новых методов решения. Таким методом может стать использование генеративных языковых моделей нейронных сетей.
Созданная компанией «OpenAI» языковая модель «ChatGPT», являющаяся специально созданным для применения в чат-ботах вариантом модели «GPT-3», стала прорывом в области обработки естественного языка. Доступ к внутренней структуре подобной сети открывает возможности для решения проблемы возникновения словесных ошибок при работе автоматизированных систем обработки, анализа и синтеза речевых сигналов. Для получения этого доступа необходимо наличие установленного локально экземпляра модели. Таким образом, была обнаружена высокая актуальность нахождения способа запуска генеративной модели GPT-3 с возможностью доступа ко внутренним структурам.
Для достижения поставленной цели были выполнены следующие задачи.
В ходе работы была исследована предметная область генеративных языковых моделей нейронных сетей. Была проделана аналитическая работа 32
по изучению особенностей генеративных моделей нейронных сетей, а также проведен анализ особенностей архитектуры GPT-моделей. Были определены требования к модели, необходимые для исследования.
Далее были протестированы возможные альтернативы модели GPT-3 для нахождения пригодных для исследования. При последующем анализе результатов было выявлено, что наиболее соответствующей требованиям для решения наших задач языковой моделью является RuGPT-3. В результате работы был определен способ запуска данной GPT-3-подобной модели с возможностью доступа ко внутренним структурам, что имеет большой потенциал в решении ряда задач распознавания и синтеза звучащей речи и открывает возможности для дальнейших исследований в сфере компьютерной лингвистики.





