Тип работы:
Предмет:
Язык работы:


ОПРЕДЕЛЕНИЕ СПОСОБА ЗАПУСКА ГЕНЕРАТИВНОЙ МОДЕЛИ GPT-3 С ВОЗМОЖНОСТЬЮ ДОСТУПА КО ВНУТРЕННИМ СТРУКТУРАМ

Работа №189161

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы41
Год сдачи2023
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
11
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
1 Генеративные модели нейронных сетей 5
1.1 Процесс обучения 5
1.2 Общая постановка задачи 7
1.3 Основные подходы к генеративным моделям 9
1.4 Особенности генеративных моделей 10
2 Архитектура «Трансформер» 13
2.1 Кодировщик (encoder) 14
2.2 Декодировщик (decoder) 15
3 Механизм внимания 17
3.1 Внимание на основе масштабированного скалярного произведения 18
3.2 «Многоголовое» внимание 20
3.3 Механизм внутреннего внимания 21
4 GPT-модели 24
4.1 BERT 26
4.2 Transformer-XL 27
4.3 XLNet 27
4.4 CTRL 27
4.5 PEGASUS 27
4.6 Т5 28
4.7 YaLM 28
4.8 RuGPT-3 28
ЗАКЛЮЧЕНИЕ 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 33
ПРИЛОЖЕНИЕ А ЛИСТИНГ ПРОГРАММЫ 37


Возникновение Интернет-сети и стремительное увеличение количества доступных текстовых данных существенно ускорило прогресс научной области, которая существует уже десятки лет и называется автоматическая обработка текстов (Natural Language Processing) и компьютерная лингвистика (Computational Linguistics). В рамках этой области предложено и воплощено во многих прикладных системах большое количество перспективных идей по автоматической обработке текстов на естественном языке (ЕЯ). Область применения компьютерной лингвистики постоянно увеличивается, возникают все новые задачи, которые успешно находят решение, иногда с привлечением результатов смежных научных областей.
Компьютерная лингвистика (КЛ) - междисциплинарная область знаний, применяющая методы и инструменты таких наук, как лингвистика, математика, информатика (Computer Science) и искусственный интеллект (Artificial Intelligence).
КЛ имеет тесную связь с областью искусственного интеллекта (ИИ), в рамках которой разрабатываются программные модели отдельных интеллектуальных функций. Общим для указанных наук является компьютерное моделирование как основной способ и итоговая цель исследований, а также эвристический характер многих применяемых методов.
В настоящее время активно развивается такая сфера применения компьютерной лингвистики как распознавание и синтез звучащей речи. Это связано с повышением интереса к изучению интеллектуальных форм взаимодействия человека и компьютера, одним из наиболее перспективных на данный момент видом которого считается взаимодействие человека и компьютера при помощи голосовых команд. Таким образом наиболее актуальным видом интеллектуальных систем являются автоматизированные системы обработки, анализа и синтеза речевых сигналов.
Данные системы сталкиваются с возникновением словесных ошибок, поэтому появляется необходимость в исследовании методов их решения. Одним из таких методов может быть применение генеративных языковых моделей нейронных сетей. Генеративная модель «ChatGPT» является прорывом в области обработки естественного языка. Эта модель является специально созданным для применения в чат-ботах вариантом модели «GPT-3». Тем не менее, устройство этих моделей не доступно напрямую для изучения. Доступ к их внутренней структуре открывает возможности для исследований решения проблем обработки, анализа и синтеза речевых сигналов.
Целью работы является найти способ запуска генеративной модели GPT-3 с возможностью доступа ко внутренним структурам.
В рамках достижения цели сформулированы следующие задачи:
1. Изучить особенности генеративных моделей нейронных сетей.
2. Проанализировать особенности архитектуры GPT-моделей.
3. Определить требования к модели, необходимые для исследования.
4. Протестировать возможные альтернативы и выбрать наиболее соответствующую требованиям модель.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы была изучена предметная область компьютерной лингвистики, применяющей методы и инструменты таких наук, как лингвистика, математика, информатика (Computer Science) и искусственный интеллект (Artificial Intelligence). Было выявлено, что в настоящее время активно развивается такая сфера применения компьютерной лингвистики как распознавание и синтез звучащей речи.
Повышение интереса к такому виду интеллектуальных форм взаимодействия человека и компьютера, как общение с помощью голосовых команд, делает автоматизированные системы обработки, анализа и синтеза речевых сигналов как никогда актуальными. Подобные системы сталкиваются с возникновением словесных ошибок, требующих новых методов решения. Таким методом может стать использование генеративных языковых моделей нейронных сетей.
Созданная компанией «OpenAI» языковая модель «ChatGPT», являющаяся специально созданным для применения в чат-ботах вариантом модели «GPT-3», стала прорывом в области обработки естественного языка. Доступ к внутренней структуре подобной сети открывает возможности для решения проблемы возникновения словесных ошибок при работе автоматизированных систем обработки, анализа и синтеза речевых сигналов. Для получения этого доступа необходимо наличие установленного локально экземпляра модели. Таким образом, была обнаружена высокая актуальность нахождения способа запуска генеративной модели GPT-3 с возможностью доступа ко внутренним структурам.
Для достижения поставленной цели были выполнены следующие задачи.
В ходе работы была исследована предметная область генеративных языковых моделей нейронных сетей. Была проделана аналитическая работа 32
по изучению особенностей генеративных моделей нейронных сетей, а также проведен анализ особенностей архитектуры GPT-моделей. Были определены требования к модели, необходимые для исследования.
Далее были протестированы возможные альтернативы модели GPT-3 для нахождения пригодных для исследования. При последующем анализе результатов было выявлено, что наиболее соответствующей требованиям для решения наших задач языковой моделью является RuGPT-3. В результате работы был определен способ запуска данной GPT-3-подобной модели с возможностью доступа ко внутренним структурам, что имеет большой потенциал в решении ряда задач распознавания и синтеза звучащей речи и открывает возможности для дальнейших исследований в сфере компьютерной лингвистики.



1) Generative models // OpenAi. - [Б. м.], 2016. - URL: https://openai.co
m/research/generative-models (Дата обращения: 15.12.2022)
2) Генеративная и дискриминативная модели // Записки преподавателя. - [Б. м.]. - URL: https://waksoft.susu.ru/2021/07/08/g enerativnaya-i-diskriminaczionnaya-modeli/
3) Механизм внимания // Викиконспекты. - [Б. м.], 2022. - URL:
https://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%8 5%D0%B0%D0%BD%D0%B8%D0%B7%D0%BC_%D0%B2%D0% BD%D0%B8%D0%BC%D0%B0%D0%BD%D0%B8%D1%8F#cite note-5 (Дата обращения: 15.02.2023)
4) Всё, что вам нужно - это внимание (часть 1) // Хабр. - [Б. м.], 2023.
- URL: https://habr.com/ru/companies/ruvds/articles/723538/ (Дата обращения: 28.03.2023)
5) Современные практики применения машинного обучения в задаче прогноза погоды // Быков Филипп Леонидович, Царалов Никита Дмитриевич // Научно-образовательный журнал для студентов и преподавателей «StudNet» - 2022 - 4
6) Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014.
7) Attention Is All You Need // 31st Conference on Neural Information Processing Systems - Long Beach, CA, USA - 2017
8) Deep residual learning for image recognition // IEEE Conference on Computer Vision and Pattern Recognition - 2016 - 770-778
9) Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jurgen Schmidhuber. Gradient flow inrecurrent nets: the difficulty of learning long-term dependencies, 2001.
10) Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.
11) Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
12) Francois Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357, 2016.
13) RuGPT-3 // Сбер Разработчикам. - [Б. м.]. -URL: https://developers .sber.ru/portal/products/rugpt-3?attempt=1 (Дата обращения: 25.01.2023)
14) Всё, что вам нужно - это внимание (часть 2) // Хабр. - [Б. м.], 2023. - URL: https://habr.com/ru/companies/ruvds/articles/725618/ (Дата обращения: 18.04.2023)
15) GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and
Compared // Make use of . - [Б. м.], 2023. - URL:
https://www.makeuseof.com/gpt-models-explained-and-compared/ (Дата обращения: 11.04.2023)...19



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ