Тема: ПРИМЕНЕНИЕ ГЕНЕРАТИВНЫХ МОДЕЛЕЙ ДЛЯ УЛУЧШЕНИЯ РАСПОЗНАВАНИЯ ВТОРИЧНЫХ СТРУКТУР ДНК
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 3
1 Анализ предметной области 4
1.1 Нуклеотид 4
1.2 Первичная структура ДНК 5
1.3 Вторичная структура ДНК 6
1.4 Методы аннотации ДНК 12
2 Набор данных 15
2.1 HG Kouzine 15
2.2 MM Chipseq 16
3 Моделирование 17
3.1 Подготовка данных 17
3.2 Диффузионный процесс 17
3.3 Архитектура нейронной сети 21
4 Оценка качества генерации 26
4.1 Содержание GC 26
4.2 Критерий Хи квадрат 27
4.3 ZDNABERT 30
4.4 Векторы признаков ДНК 32
4.5 Начальное расстояние Фреше 33
4.6 Визуализация распределений 37
ЗАКЛЮЧЕНИЕ 40
ЛИТЕРАТУРА 41
📖 Введение
На данные момент существуют лабораторные методы, которые позволяют размечать ДНК последовательности. Но для таких методов требуются дорогостоящие реагенты и материалы. С развитием машинного обучения появились более дешёвые компьютерные методы аннотирования ДНК последовательностей.
Существующие подходы машинного обучения к распознаванию вторичных структур ДНК полагаются на данные с незначительным содержанием отличных от B-формы структур ДНК и поэтому страдают от дисбаланса классов. Из-за дисбаланса модели машинного обучения не могут с большой точностью распознать миноритарный класс последовательности ДНК, что приводит к плохой производительности и уменьшению сферы использования таких моделей.
Целью данного исследования является разработка нового метода для генерации правдоподобных вторичных структур ДНК для дополнения миноритарных классов в наборах данных без нарушения их структурной целостности. Такой подход позволит увеличить количество последовательностей в миноритарных классах, что, как ожидается, улучшит точность распознавания вторичных структур ДНК, отличных от B-ДНК.
✅ Заключение
Сгенерированные последовательности ДНК имеют схожее содержание GC-нуклеотидов с реальными данными. Кроме того, сгенерированные последовательности отличаются от реальных данных в небольшой степени, что свидетельствует об их схожести.
В случае Z-ДНК для HG Kouzine сгенерированные последовательности также обладают схожими характеристиками с реальными последовательностями. Результаты показывают, что сгенерированные последовательности содержат Z-ДНК, хотя её содержание ниже, чем в реальных данных.
Для MM Chipseq несмотря на удовлетворительную генерацию ДНК, Z- ДНК сгенерированные последовательности значительно отличаются от реальных Z-ДНК. Что, возможно, может быть связано с тем, что в обучающих данных многие последовательности, помеченные как Z-ДНК, схожи с B-ДНК, поэтому модель воспринимает их неправильно.
Результаты данного исследования свидетельствуют о том, что предложенный метод генерации последовательностей ДНК разного типа может быть эффективным инструментом для устранения дисбаланса классов в наборах данных для распознавания вторичных структур ДНК и потенциально может улучшить качество моделей классификации.





