Тип работы:
Предмет:
Язык работы:


ПРИМЕНЕНИЕ ГЕНЕРАТИВНЫХ МОДЕЛЕЙ ДЛЯ УЛУЧШЕНИЯ РАСПОЗНАВАНИЯ ВТОРИЧНЫХ СТРУКТУР ДНК

Работа №180526

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы47
Год сдачи2024
Стоимость4400 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
3
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 3
ВВЕДЕНИЕ 3
1 Анализ предметной области 4
1.1 Нуклеотид 4
1.2 Первичная структура ДНК 5
1.3 Вторичная структура ДНК 6
1.4 Методы аннотации ДНК 12
2 Набор данных 15
2.1 HG Kouzine 15
2.2 MM Chipseq 16
3 Моделирование 17
3.1 Подготовка данных 17
3.2 Диффузионный процесс 17
3.3 Архитектура нейронной сети 21
4 Оценка качества генерации 26
4.1 Содержание GC 26
4.2 Критерий Хи квадрат 27
4.3 ZDNABERT 30
4.4 Векторы признаков ДНК 32
4.5 Начальное расстояние Фреше 33
4.6 Визуализация распределений 37
ЗАКЛЮЧЕНИЕ 40
ЛИТЕРАТУРА 41


ДНК является жизненно важной молекулой для всех живых организмов, храня и передавай генетическую информацию. Вторичная структура ДНК может приобретать различные формы, такие как A-ДНК, B-ДНК, Z-ДНК, H- ДНК. B-ДНК в геномах организмов находится в гораздо большем количестве, чем другие формы. Однако вторичные структуры, отличные от B-ДНК, играют важную роль в регуляции процессов живых организмов.
На данные момент существуют лабораторные методы, которые позволяют размечать ДНК последовательности. Но для таких методов требуются дорогостоящие реагенты и материалы. С развитием машинного обучения появились более дешёвые компьютерные методы аннотирования ДНК последовательностей.
Существующие подходы машинного обучения к распознаванию вторичных структур ДНК полагаются на данные с незначительным содержанием отличных от B-формы структур ДНК и поэтому страдают от дисбаланса классов. Из-за дисбаланса модели машинного обучения не могут с большой точностью распознать миноритарный класс последовательности ДНК, что приводит к плохой производительности и уменьшению сферы использования таких моделей.
Целью данного исследования является разработка нового метода для генерации правдоподобных вторичных структур ДНК для дополнения миноритарных классов в наборах данных без нарушения их структурной целостности. Такой подход позволит увеличить количество последовательностей в миноритарных классах, что, как ожидается, улучшит точность распознавания вторичных структур ДНК, отличных от B-ДНК.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Результаты проведённой работы продемонстрировали, что предложенный метод генерации последовательностей вторичных структур ДНК способен создавать последовательности, схожие с реальными и при этом сохраняющие важные структурные характеристики.
Сгенерированные последовательности ДНК имеют схожее содержание GC-нуклеотидов с реальными данными. Кроме того, сгенерированные последовательности отличаются от реальных данных в небольшой степени, что свидетельствует об их схожести.
В случае Z-ДНК для HG Kouzine сгенерированные последовательности также обладают схожими характеристиками с реальными последовательностями. Результаты показывают, что сгенерированные последовательности содержат Z-ДНК, хотя её содержание ниже, чем в реальных данных.
Для MM Chipseq несмотря на удовлетворительную генерацию ДНК, Z- ДНК сгенерированные последовательности значительно отличаются от реальных Z-ДНК. Что, возможно, может быть связано с тем, что в обучающих данных многие последовательности, помеченные как Z-ДНК, схожи с B-ДНК, поэтому модель воспринимает их неправильно.
Результаты данного исследования свидетельствуют о том, что предложенный метод генерации последовательностей ДНК разного типа может быть эффективным инструментом для устранения дисбаланса классов в наборах данных для распознавания вторичных структур ДНК и потенциально может улучшить качество моделей классификации.



Результаты проведённой работы продемонстрировали, что предложенный метод генерации последовательностей вторичных структур ДНК способен создавать последовательности, схожие с реальными и при этом сохраняющие важные структурные характеристики.
Сгенерированные последовательности ДНК имеют схожее содержание GC-нуклеотидов с реальными данными. Кроме того, сгенерированные последовательности отличаются от реальных данных в небольшой степени, что свидетельствует об их схожести.
В случае Z-ДНК для HG Kouzine сгенерированные последовательности также обладают схожими характеристиками с реальными последовательностями. Результаты показывают, что сгенерированные последовательности содержат Z-ДНК, хотя её содержание ниже, чем в реальных данных.
Для MM Chipseq несмотря на удовлетворительную генерацию ДНК, Z- ДНК сгенерированные последовательности значительно отличаются от реальных Z-ДНК. Что, возможно, может быть связано с тем, что в обучающих данных многие последовательности, помеченные как Z-ДНК, схожи с B-ДНК, поэтому модель воспринимает их неправильно.
Результаты данного исследования свидетельствуют о том, что предложенный метод генерации последовательностей ДНК разного типа может быть эффективным инструментом для устранения дисбаланса классов в наборах данных для распознавания вторичных структур ДНК и потенциально может улучшить качество моделей классификации.
...22


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ