Тип работы:
Предмет:
Язык работы:


Разработка платформы проксирования и системы интеллектуальной обработки пользовательских данных для работы с нейросетевыми моделями

Работа №144442

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы42
Год сдачи2024
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
11
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 5
1. Обзорный раздел по предметной области 6
1.1. Large Language Models (LLM) 6
1.2. Векторные базы данных 7
1.3. Обзор существующих решений 8
1.3.1 MemGPT 8
2. Работа с пользовательскими данными 11
2.1. В чём заключается работа с пользовательскими данными . . 11
2.2. Типы пользовательских данных 12
2.3. Пользовательские файлы 12
2.4. Пользовательские диалоги 14
2.5. Анкетные данные пользователя 15
2.6. Аналитические данные пользователя 17
3. Работа с prompt-ами 21
3.1. Prompt для анализа пользовательских запросов 21
3.2. Персонализированный prompt 24
4. Проектирование и разработка 26
4.1. Стек и фреймворки 26
4.2. Общая структура работы сервиса 26
4.3. Разработка прокси 27
4.4. Работа с файлами и диалогами 28
4.4.1 Проблема одного пользователя 29
4.4.2 Разделение на пользователей 30
4.4.3 Множественные диалоги 30
4.5. Работа с профилями пользователей 31
4.6. Итоговая функциональность 34
Заключение 35
Список литературы 36
Приложение

В наши дни нейросетевые модели всё чаще применяются для работы с самыми разнообразными данными. Одним из самых передовых методов применения моделей к работе с ними являются LLM - модели, способные общаться с человеком на понятном ему языке. Они нашли широкое распро­странение в повседневной жизни, но, не смотря на их популярность у про­стых пользователей, именно пользовательские данные для них ограничены диалогами и иногда ограниченным наборов допустимых форматов докумен­тов. Из-за этого работа с файлами при помощи LLM становится достаточно затруднительной или вовсе невозможной. Но даже GPT 4, который умеет как- то работать с документами, всё ещё ограничен размером своего контекста. Более того, для современных LLM моделей пользователь обезличен, поэто­му они не подстраивают свой ответ под пользователя, кроме случаев когда пользователь сам в каждом диалоге будет постоянно их об этом просить.
Целью данной работы является создание системы для взаимодействия с LLM, которая способна не только существенно расширить контекст произ­вольной языковой модели, но также добавлять в него множество разнообраз­ных документов. Более того, данная система позволит учитывать и анализи­ровать историю общения с пользователем для улучшения качества и актуаль­ности ответов модели. Также такая система позволит не терять суть диалога с LLM даже при смене самой модели, так как все необходимые данные будут хранится не в контексте конкретной модели, а в разрабатываемой системе.
В данной работе представлены исследования влияния пользовательских данных на работу LLM, а также описания процесса построения описанной системы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Основной задачей данной работы была реализация системы, которая способна расширить контекст LLM, использовать пользовательские файлы для расширения контекста, а также использовать этот контекст при взаимо­действии с разными LLM, что позволит передавать контекст между ними. Также как цели данной работы выделялись сбор и использование пользова­тельской информации для лучшей персонализации запросов. В рамках работы было сделано следующее:
• Спроектирован и реализован модуль, позволяющий создавать контекст пользовательского диалога на основе файлов и пар запрос пользователя - ответ LLM, а также собирать данные о пользователе для дальнейшего анализа.
• Исследованы влияние структуры и содержания запроса на точность и содержание ответа модели для использования LLM в качестве анализа­тора, а также для повышения уровня персонализации ответов.
• Спроектирован и реализован модуль, отвечающий за анализ пользова­тельских данных для получения профиля пользователя, основанного на его поведении.
• Спроектирован модуль, который позволяет удобно взаимодействовать с openai compatible моделями, дополняя пользовательский запрос ин­формацией из контекста диалога, а также пользовательского профиля.
• Реализована поддержка пользовательских диалогов, а также работа мно­жества пользователей в рамках одной векторной базы данных.
Хорошей демонстрацией работы системы является приложение на стра­нице 45. Можно заметить, что LLM модель не только начала обращаться к пользователю по имени, но и учла увлечения пользователя и его предыду­щий опыт взаимодействия с теоремами из алгебры. Более того, во втором случае пользователь может попросить модель использовать алгебраические формулировки, дополнение запроса системой никак этому не навредит.
Таким образом, цель данной работы достигнута в полном объёме.


[1] Attention Is All You Need https://arxiv.org/pdf/1706.03762 (датирова­на 02.08.2023).
[2] BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding https://arxiv.org/pdf/1810.04805 (датирована
24.05.2019).
[3] Language Models are Few-Shot Learners https://arxiv.org/pdf/ 2005.14165 (датирована 22.07.2020).
[4] Exploring the Limits of Transfer Learning with a Unified Text- to-Text Transformer https://arxiv.org/pdf/1910.10683 (датирована 19.09.2023).
[5] THE FAISS LIBRARY https://arxiv.org/pdf/2401.08281 (датирована 16.01.2024).
[6] THE Accelerating Large-Scale Inference with Anisotropic Vector Quantization https://arxiv.org/pdf/2401.08281 (датирована 4.12.2020).
[7] ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms https://arxiv.org/pdf/1807.05614 (датирована 17.07.2018).
[8] Charles Packer, Sarah Wooders, Kevin Lin, Vivian Fang, Shishir G. Patil, Ion Stoica, Joseph E. Gonzalez MemGPT: Towards LLMs as Operating Systems https://arxiv.org/pdf/2310.08560 (датирована 18.10.2024).
[9] Personalizing Dialogue Agents: I have a dog, do you have pets too? https: //arxiv.org/pdf/1801.07243 (датирована 25.09.2018).
[10] When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities https://arxiv.org/pdf/2307.16376 (дати­рована 31.07.2023).
[11] Building machines that learn and think like people https:
//www.cambridge.org/core/journals/behavioral-and-brain- sciences/article/building-machines-that-learn-and-think- like-people/A9535B1D745A0377E16C590E14B94993 (датирована
24.11.2016).
[12] Towards Persona-Based Empathetic Conversational Models https:// arxiv.org/pdf/2004.12316 (датирована 19.11.2020).
[13] Text Embeddings by Weakly-Supervised Contrastive Pre-training https: //arxiv.org/pdf/2212.03533 (датирована 24.02.2024).
[14] Python https://www.python.org/doc/.
[15] OpenAI SDK https://github.com/openai/openai-python.
... всего 21 источник


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ