Введение 3
1. Обзорный раздел по предметной области 4
1.1. Геном и геномная сборка 4
1.2. Методы оценивания геномных сборок 5
1.2.1 Метрики 5
1.2.2 Утилиты 8
1.3. Особенности геномов и геномных сборок вирусов 9
1.4. Существующие подходы 9
1.5. Выводы 10
2. Проведенные исследования существующих методов 11
2.1. Тестовые данные 11
2.2. Поиск наилучших штаммов 11
2.3. Наивный подход 12
2.4. Проблемы исследованных методов 13
3. Разработанные методы 14
3.1. Наивный подход 14
3.2. Подход не использующий длину штамма 17
3.3. Использование вспомогательной информации 20
3.4. Подход с предподсчетом 23
3.5. Результаты работы методов 26
4. Результаты 28
4.1. Разработанное расширение 28
4.2. Использованные технологии и детали реализации 30
Заключение 32
Список литературы 33
С 50-х годов ученые изучают организмы путем анализа их геномов - так называемых совокупностях наследственного материала, содержащихся в клетках. С того времени было разработано множество различных техник для этого, но к сожалению, полностью извлечь информацию о геноме из организма до сих пор невозможно с технологической точки зрения. Зато можно получить его фрагменты, а потом попытаться воссоздать геном по этим фрагментам. Этот процесс называется сборкой генома. Обычно этим занимаются биоинформатики и для этого существует и придумывается много различных алгоритмов. Но все эти алгоритмы нужно уметь сравнивать между собой, чтобы понимать, в каких случаях лучше применить одни, а в каких другие. При этом различные виды организмов могут сильно отличаться между собой, из-за чего для них могут применяться разные методы по сборке генома и последующей его оценке. Отсюда возникает естественная задача написания программы, которая будет оценивать качество сборки геномов для определенных видов организмов, учитывая их различные особенности.
Основной целью данной работы являлось создание инструмента, позволяющего оценивать геномные сборки вирусов в автоматизированном режиме.
Для ее достижения требовалось решить следующие задачи:
• проанализировать особенности геномных сборок вирусов
• изучить существующие методы оценок геномных сборок вирусов
• при необходимости придумать и разработать алгоритмы для оценки сборок
• протестировать разработанные алгоритмы на тестовых примерах
• реализовать программный продукт, который на основе разработанных алгоритмов будет оценивать геномные сборки вирусов
Поцесс выполнения поставленных задач а также их результаты представлены далее в данной работе.
В рамках данной работы были проанализированы особенности геномных сборок вирусов и существующие методы оценивания их качества. Отсутствие утилит, способных оценивать сборки геномов вирусов с использованием пангенома, привело к разработке нескольких алгоритмов, способных на это, а также к созданию инструмента ViralQuast, использующего эти алгоритмы и оценивающего сборки геномов вирусов с использованием пангенома.
Разработанные алгоритмы протестированы на 172 тестовых образцах.
Утилита разработана на основе Quast и является отдельным ее режимом. Сейчас доступна как прототип.
Весь код находится по адресу github.com/ablab/quast/tree/viralquast
В будущем планируется написание статьи о разработанной утилите, а также ее публичный релиз.