Тип работы:
Предмет:
Язык работы:


Вычислительные методы для оценивания геномных сборок вирусов

Работа №127285

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы29
Год сдачи2022
Стоимость4230 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
13
Не подходит работа?

Узнай цену на написание


Введение 3
1. Обзорный раздел по предметной области 4
1.1. Геном и геномная сборка 4
1.2. Методы оценивания геномных сборок 5
1.2.1 Метрики 5
1.2.2 Утилиты 8
1.3. Особенности геномов и геномных сборок вирусов 9
1.4. Существующие подходы 9
1.5. Выводы 10
2. Проведенные исследования существующих методов 11
2.1. Тестовые данные 11
2.2. Поиск наилучших штаммов 11
2.3. Наивный подход 12
2.4. Проблемы исследованных методов 13
3. Разработанные методы 14
3.1. Наивный подход 14
3.2. Подход не использующий длину штамма 17
3.3. Использование вспомогательной информации 20
3.4. Подход с предподсчетом 23
3.5. Результаты работы методов 26
4. Результаты 28
4.1. Разработанное расширение 28
4.2. Использованные технологии и детали реализации 30
Заключение 32
Список литературы


С 50-х годов ученые изучают организмы путем анализа их геномов - так называемых совокупностях наследственного материала, содержащихся в клетках. С того времени было разработано множество различных техник для этого, но к сожалению, полностью извлечь информацию о геноме из организма до сих пор невозможно с технологической точки зрения. Зато можно получить его фрагменты, а потом попытаться воссоздать геном по этим фрагментам. Этот процесс называется сборкой генома. Обычно этим занимаются биоинформатики и для этого существует и придумывается много различных алгоритмов. Но все эти алгоритмы нужно уметь сравнивать между собой, чтобы понимать, в каких случаях лучше применить одни, а в каких другие. При этом различные виды организмов могут сильно отличаться между собой, из-за чего для них могут применяться разные методы по сборке генома и последующей его оценке. Отсюда возникает естественная задача написания программы, которая будет оценивать качество сборки геномов для определенных видов организмов, учитывая их различные особенности.
Основной целью данной работы являлось создание инструмента, позволяющего оценивать геномные сборки вирусов в автоматизированном режиме.
Для ее достижения требовалось решить следующие задачи:
• проанализировать особенности геномных сборок вирусов
• изучить существующие методы оценок геномных сборок вирусов
• при необходимости придумать и разработать алгоритмы для оценки сборок
• протестировать разработанные алгоритмы на тестовых примерах
• реализовать программный продукт, который на основе разработанных алгоритмов будет оценивать геномные сборки вирусов
Процесс выполнения поставленных задач а также их результаты пред-ставлены далее в данной работе.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы были проанализированы особенности геномных сборок вирусов и существующие методы оценивания их качества. Отсутствие утилит, способных оценивать сборки геномов вирусов с использованием пангенома, привело к разработке нескольких алгоритмов, способных на это, а также к созданию инструмента ViralQuast, использующего эти алгоритмы и оценивающего сборки геномов вирусов с использованием пангенома.
Разработанные алгоритмы протестированы на 172 тестовых образцах.
Утилита разработана на основе Quast и является отдельным ее режимом. Сейчас доступна как прототип.
Весь код находится по адресуgithub.com/ablab/quast/tree/viralquast
В будущем планируется написание статьи о разработанной утилите, а также ее публичный релиз.



[1] Alexey Gurevich, Vladislav Saveliev, Nikolay Vyahhi, and Glenn Tesler. Quast: quality assessment tool for genome assemblies. Bioinformatics, 29(8):1072-1075, 2013.
[2] Nancy Manchanda, John L Portwood, Margaret R Woodhouse, Arun S Seetharam, Carolyn J Lawrence-Dill, Carson M Andorf, and Matthew B Hufford. Genomeqc: a quality assessment tool for genome assemblies and gene structure annotations. BMC genomics, 21(1):1-9, 2020.
[3] Martin Hunt, Taisei Kikuchi, Mandy Sanders, Chris Newbold, Matthew Berriman, and Thomas D Otto. Reapr: a universal tool for genome assembly evaluation. Genome biology, 14(5):1-10, 2013.
[4] Li-An Yang, Yu-Jung Chang, Shu-Hwa Chen, Chung-Yen Lin, and Jan-Ming Ho. Squat: a sequencing quality assessment tool for data quality assessments of genome assemblies. BMC genomics, 19(9):1-12, 2019.
[5] Stephen Nayfach, Antonio Pedro Camargo, Frederik Schulz, Emiley Eloe- Fadrosh, Simon Roux, and Nikos C Kyrpides. Checkv assesses the quality and completeness of metagenome-assembled viral genomes. Nature biotechnology, 39(5):578-585, 2021.
[6] Paul E Oluniyi, Fehintola Ajogbasile, Judith Oguzie, Jessica Uwanibe, Adeyemi Kayode, Anise Happi, Alphonsus Ugwu, Testimony Olumade, Olusola Ogunsanya, Philomena Ehiaghe Eromon, et al. Vgea: an rna viral assembly toolkit. PeerJ, 9:e12129, 2021.
[7] Martin Hunt, Astrid Gall, Swee Hoe Ong, Jacqui Brener, Bridget Ferns, Philip Goulder, Eleni Nastouli, Jacqueline A Keane, Paul Kellam, and Thomas D Otto. Iva: accurate de novo assembly of rna virus genomes. Bioinformatics, 31(14):2374-2376, 2015.
[8] Heng Li and Richard Durbin. Fast and accurate short read alignment with burrows-wheeler transform. bioinformatics, 25(14):1754-1760, 2009.
[9] Heng Li. Minimap2: pairwise alignment for nucleotide sequences.
Bioinformatics, 34(18):3094-3100, 2018.
[10] Brian D Ondov, Todd J Treangen, Pall Melsted, Adam B Mallonee, Nicholas H Bergman, Sergey Koren, and Adam M Phillippy. Mash: fast genome and metagenome distance estimation using minhash. Genome biology, 17(1):1- 14, 2016.
[11] Norman Goodacre, Aisha Aljanahi, Subhiksha Nandakumar, Mike Mikailov, and Arifa S Khan. A reference viral database (rvdb) to enhance bioinformatics analysis of high-throughput sequencing for novel virus detection. MSphere, 3(2):e00069-18, 2018.
[12] Johannes Koster and Sven Rahmann. Snakemake—a scalable bioinformatics workflow engine. Bioinformatics, 28(19):2520-2522, 2012.
[13] Petr Danecek, James K Bonfield, Jennifer Liddle, John Marshall, Valeriu Ohan, Martin O Pollard, Andrew Whitwham, Thomas Keane, Shane A McCarthy, Robert M Davies, et al. Twelve years of samtools and bcftools. Gigascience, 10(2):giab008, 2021.
[14] Peter JA Cock, Tiago Antao, Jeffrey T Chang, Brad A Chapman, Cymon J Cox, Andrew Dalke, Iddo Friedberg, Thomas Hamelryck, Frank Kauff, Bartek Wilczynski, et al. Biopython: freely available python tools for computational molecular biology and bioinformatics. Bioinformatics, 25(11):1422-1423, 2009.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ