Тема: СОЗДАНИЕ АЛГОРИТМА ГЕНЕРАЦИИ ОБРАЗОВАТЕЛЬНОГО КОНТЕНТА С ИСПОЛЬЗОВАНИЕМ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 8
1 Анализ задачи генерации образовательного контента 10
1.1 Состав данных 13
2. Анализ существующих решений в области генерации образовательного контента 17
3 Метрика 19
4 Обзор используемых архитектур 21
4.1 Модели-трансформеры 21
4.2 Большие языковые модели 25
5 Реализация 26
5.1 Улучшения во второй итерации алгоритма 35
5.1.1 Few-shot prompting 35
5.1.2 Fine-tuning 37
5.1.3 Добавление нового Агента в алгоритм генерации 41
5.2 Улучшения в третьей итерации алгоритма 42
5.2.1 Retrieval Augmented Generation 42
5.3 Создание итоговой версии алгоритма 43
5.4 Генерация теоретических материалов 46
6 Результаты 51
Заключение 54
Список использованных источников и литературы 55
Приложение 1 60
Корректно ли считать «prompt engineering» связанным с инженерией термином 60
📖 Введение
Одной из ключевых проблем в создании образовательного контента является необходимость обеспечения его высокой адаптивности и индивидуализации, что требует значительных трудозатрат и времени от преподавателей и разработчиков курсов. В этом контексте возникает потребность в инструментах и методах, способных автоматизировать и оптимизировать процесс генерации качественных и релевантных образовательных задач.
Большие языковые модели (LLM), такие как GPT (Generative Pre-trained Transformer) [11], открывают новые возможности для решения указанной проблемы. Благодаря своей способности генерировать тексты на основе огромного количества данных, они могут быть использованы для создания разнообразных образовательных задач, включая задачи по программированию. Использование LLM позволяет не только генерировать уникальные задания, соответствующие определенным учебным целям, но и адаптировать их под индивидуальные потребности учащихся, тем самым повышая эффективность учебного процесса.
В рамках данной работы проводится анализ задачи по генерации образовательного контента в области информационных технологий и программирования (IT) и анализ существующих решений, основанных на больших языковых моделях а также описывается подход к генерации образовательного контента для образовательной платформы с использованием LLM.
Стоит отметить, что для выполнения требований соглашения о неразглашении, образовательная платформа, для которой разрабатывался данный алгоритм не будет названа в этой работе.
Задачи работы:
1. Проанализировать текущие процессы создания образовательного контента и требования к созданию алгоритма генерации различных типов контента.
2. Определить наиболее подходящие существующие большие языковые модели для использования в алгоритме генерации контента.
3. Выбрать метрики для оценки качества работы алгоритма.
4. Разработать алгоритм, основанный на больших языковых моделях.
5. Определить и имплементировать возможные подходы к улучшению метрик алгоритма.
6. Проанализировать метрики моделей после применения подходов к улучшению.
7. Подвести итоги касательно эффективности алгоритмов генерации образовательного контента на основе больших языковых моделей.
✅ Заключение
Использование простой системы без дополнительных Агентов с различными ролями для валидации сгенерированного контента не позволяет достичь желаемых результатов по метрике Acceptance Rate. В то же время, эмпирические свидетельства результата проверки на пользователях в рамках онлайн тестирования позволяют утверждать, что Сеть Агентов LLM может генерировтаь задачи на приемлемом для авторов и пользователей уровне и при этом придерживаться стилистики данной платформы и не допускать фактических ошибок и неточностей.
В дальнейшем алгоритм будет доработан путем улучшения качества промптов Агентов, сбору большего датасета для RAG, а также за счет дообучения модели для Агента «Author» на данных по обратной связи. Также не стоит упускать из внимания потенциальные новые LLM, которые могут быть выпущены в ближайшее время и качество генерации текстов которых будут существенно превышать все имеющиеся на данный момент в публичном доступе алгоритмы.
Также, частью данной работы был анализ используемой терминологии в среде разработки и исследований больших языковых моделей и предложены альтернативные варианты для названия метода промпт инжиниринга.



