ВВЕДЕНИЕ 2
Глава 1. Теоретические основы дообучения LLM. 5
1.1. Языковая модель 5
1.2. Предварительное обучение и дообучение 8
1.3. Генерация ответа, дополненная результатами поиска 13
1.4 Выводы к первой главе 16
Глава 2. Реализация RAG и взаимодействие с LLM: от подготовки данных до интерпретации результатов. 18
2.1. Предобработка данных 18
2.2. Векторное пространство 22
2.3. Векторная база данных 28
2.4. Поиск по базе знаний 30
2.5. Практика взаимодействия с LLM 32
2.6. Оценка результатов и интерпретация вывода 36
2.7 Выводы к воторой главе 43
ЗАКЛЮЧЕНИЕ 46
СПИСОК ЛИТЕРАТУРЫ 49
ПРИЛОЖЕНИЕ 52
Современные большие языковые модели (LargeLanguageModels, LLM) применяются в широком спектре задач, от генерации текстов различного назначения до поддержки в разработке программного обеспечения и, являясь поистине мощным инструментом обработки естественного языка, имеют также ряд ограничений. Ограничения эти связаны прежде всего с постоянной проблемой нехватки данных; на сегодняшний день не существует эффективного подхода, позволяющего проводить автоматическое обучение на новых данных в реальном времени или быстро адаптироваться к изменяющимся требованиям информационной среды, то есть результаты, генерируемые моделью, могут не затрагивать какой-то специфической области знаний, могут быть устаревшими или вовсе нерелевантными (ложными или выдуманными). Эти ограничения можно обойти, адаптировав модель под конкретные задачи путем её интеграции с дополнительными источниками данных. Этот процесс называется дообучением LLM.
Эта работа направлена на изучение теоретических и практических аспектов дообучения больших языковых моделей с использованием технологии генерации, дополненной результатами поиска (RetrievalArgumentGeneration). Особое внимание уделяется различным способам предобработки и организации дообучающих данных, а также проверке работоспособности дообученных LLMsна разных типах данных.
Гипотеза исследования заключается в том, что хотя качество данных в базе знаний напрямую влияют на качество дообучения, определенные этапы подготовки данных могут повысить скорость работы модели без существенного влияния на качество генерации.
Исследование проведено на материале статей, диалоговых журналов и вопросо-ответных пар, хранящихся в открытом доступе или искуственно сгенерированных.
Объектом исследования являются языковые модели и дообучающие данные.
Предмет исследования – влияние объема и качества данных на процесс дообучения LLM и их производительность.
Целью исследования является изучение теоретических и практических аспектов дообучения LLM, а также оценка влияния объема и качества данных на результативность и производительность моделей.
Для достижения поставленной цели требуется выполнить следующие задачи:
1) Провести теоретический обзор и выбор используемой векторной базы данных, алгоритмами поиска по данной базе и определение языковой модели для генерации.
2) Дообучить LLMsна различных типах данных.
3) Провести оценку эффективности работы компонентов дообученных LLMs с применением Retrieval-Augmented Generation Assessment System (RAGAS).
Научная новизна данного исследования проявляется в анализе воздействия различных уровней очистки и обработки данных на русском языке на эффективность работы больших языковых моделей.
Теоретическая значимость данного исследования проявляется в осмыслении механизмов дообучения LLM и в выявлении влияния различных факторов на их итоговую производительность.
Практическая значимость исследования определяется тем, что его результаты могут быть применены для разработки более эффективных и адаптируемых моделей LLM, что в свою очередь способствует прогрессу в области искусственного интеллекта и обработки естественного языка.
Методология исследования включает в себя анализ данных, оценку значимости и сравнительный анализ.
Положения, выносящиеся на защиту:
1. Лемматизация каждой текстовой единицы положительно влияет на производительность модели и скорость генерации токенов, но может сказываться на качестве генерируемого материала.
2. Очистка данных, извлеченных с веб-страниц, отрицательно влияет на общую проивзодительность модели «chat-gpt-3.5-turbo», но не на качество генерируемого материала.
В рамках настоящей работы проведен анализ методов дообучения больших языковых моделей, на практике был применен метод Retrieval-Augmented Generation (RAG)как альтернатива классическому дообучению.Обоснованы преимущества RAG, такие как эффективное использование вычислительных ресурсов и гибкость в работе с изменяющимися данными.
Основное внимание уделялось теоретическим и практическим аспектам интеграции дополнительных источников данных в модели LLM, с особым вниманиемк предобработке и возможной организации данных. Изучены методы сепарации данных, их структурирования и векторного представления. Основываясь на метриках тестирования скорости работы модели, релевантности поискового и генерирующего компонента выявлены факторы, влияющие на производительность и релевантность результатов работы LLM.
Изучены основы взаимодействия с большими языковыми моделями:мы рассмотрели архитектуру трансформера и ключевые элементы LLM, такие как механизм самовнимания и взаимодействие между энкодером и декодером, этапы разработки LLM, включая предварительное обучение и fine-tuning, а также методы взаимодействия с LLM через программный интерфейс приложения, способы подачи входных данных (промпта) и настройки параметров модели. Представлена последовательность операций интеграции RAG, начиная от загрузки данных и заканчивая предоставлением сгенерированного ответа пользователю.
Результаты теоретических исследований, проведенных в первой главе, являются основой для практической реализации в последующих этапах работы. Таким образом,опираясь на эти результаты, разработаны конкретные решения для применения описанных методов и стратегий на практике.
В практической части были исследованы способы представления текстовых данных в виде векторных вкраплений, с использованием модели встраиванияSBERT, для обеспечения встраивания целых предложений, а не отдельных слов, как в случае с классическим BERT. Особое вниманиена практике уделялось организации и использованию векторных баз данных, что позволило улучшить процесс поиска и хранения информации.
В результате проведенного исследования было установлено, что правильная предобработка данных, включая их сепарацию на фрагменты оптимального размера и лемматизацию, ускоряет работу модели, сохраняя качество генерируемых ответов.Эти результаты подтверждают гипотезу о том, что некоторые этапы подготовки данных (в данном случае лемматизация)могут значительно повысить скорость работы модели без существенного ухудшения качества генерации. Однако необходимо проводить дополнительные исследования на различных типах данных разной стилистики и оценивать важность упомянутых погрешностей в зависимости от сферы применения потенциального приложения. Таким образом, дальнейшие исследования и тестирование на разнообразных данных необходимы для полной оценки предложенных методов и их адаптации к различным прикладным задачам.
Позволим также предположить, что результаты нашего исследования могут иметь и практическую значимость. Применение предложенных методов и стратегий дообучения LLM открывает новые возможности для разработки и адаптации моделей в различных прикладных областях. Эти методы могут быть особенно полезны при обработке данных на русском языке, что делает их важными в русскоязычных сферах разработки чат-ботов, виртуальных ассистентов, анализа текстов в социальных сетях и СМИ, автоматизации перевода и локализации контента, образовательных технологий.
Итак, предложенные в рамках данного исследования методы дообучения больших языковых моделей с использованием RAG способствуют более глубокому пониманию и эффективному применению LLM в различных контекстах. Эти методы отражают особенности и требования современного информационного пространства, что делает их актуальными для дальнейших исследований и практического применения.
Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space I // 2013.1301.3781.
[2] Devlin J., Chang M., Lee K., & Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // 2019.1810.04805.
[3] Шумский С. А. Машинный интеллект. Очерки по теории машинного обучения и искусственного интеллекта. // М.: РИОР, 2020. 340 с. ISBN: 978-5-369-01832-3. URL:https://doi.org/10.48550/arXiv.2206.07023
[4] Altman N., Krzywinski M. The curse(s) of dimensionality // Nature Methods. 2018. № 15. P. 399–400.
[5] Banghao C., Zhaofeng Z., Langren L., Shengxin Z. Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review // Beijing Normal University. 2023. № 18. URL: https://doi.org/10.48550/arXiv.2310.14735
[6] Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.t., Ocktäschel, T., Riedel, S., Kiela, D. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // Advances in Neural Information Processing Systems. 2020. № 33. URL: https://doi.org/10.48550/arXiv.2005.11401
[7] Woods W., Kaplan R. Webber B. The Lunar Sciences Natural Language Information System // 1972. Bolt, Beranek Newman, Cambridge, MA, USA. URL: https://books.google.com/books/about/The_Lunar_Sciences_Natural_Language_Info.html?id=tUcCHQAACAAJ
[8] Thakur N., Reimers N., Daxenberger J., Gurevych I. Augmented SBERT: Data augmentation method for improving bi-encoders for pairwise sentence scoring tasks // 2020. 2010.08240.
[9] Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // Empirical Methods in Natural Language Processing. 2019. № 9. URL: https://doi.org/10.48550/arXiv.1908.10084
[10] Cover T., Hart P. Nearest neighbor pattern classification. IEEE Transactions on Information Theory. 1967. Vol. 13. P. 21–27.
[11] Gao L., Ma X., Lin J., Callan J. Precise Zero-Shot Dense Retrieval without Relevance Labels // 2022. 2212.10496.
[12] Hao Y., Aoran G., Kai Z., Shiwei T., Qi L., Zhaofeng L. Evaluation of Retrieval-Augmented Generation: A Survey // 2024. 2405.07437.
[13] Ragas documentation // URL: https://docs.ragas.io/en/stable/
[14] Agarwal M., Qureshi A., Sardana N., Li L., Quevedo J.,Khudia D.LLM Inference Performance Engineering: Best Practices // 2023. URL:https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices
[15] Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Polosukhin I., Kaiser Ł. Attention is All you Need (англ.) // Advances in Neural Information Processing Systems. 2017. № 30. URL: https://doi.org/10.48550/arXiv.1706.03762
...
23 источника