Тип работы:
Предмет:
Язык работы:


Исправление ошибок в чтениях, полученных с помощью ТЕХНОЛОГИИ IONTORRENT

Работа №125125

Тип работы

Дипломные работы, ВКР

Предмет

математическое моделирование

Объем работы71
Год сдачи2017
Стоимость4850 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
52
Не подходит работа?

Узнай цену на написание


Введение 5
Глава 1. Постановка задачи и профиль ошибок технологии секвенирова­ния lONTORRENT 7
1.1. Основные обозначения 7
1.2. Задача исправления ошибок 8
1.3. Профиль ошибок 8
1.4. Quality-значения технологии lONTORRENT 9
Глава 2. Метод исправления ошибок 13
2.1. Основная идея алгоритма BAYESHAMMER 13
2.2. IonHammer 15
2.3. Алгоритм оценки множества геномных ЛА-меров 16
2.3.1. Статистики по встретившимся ЛА-мерам 16
2.3.2. Кластеризация EDi-графа 18
2.3.3. Субкластеризация 21
2.3.4. Отличия от предыдущей версии IonHammer 23
2.3.5. Качество алгоритма кластеризации 24
2.4. Алгоритм коррекции ошибок 25
2.4.1. Алгоритм коррекции 25
2.4.2. Функция штрафа 29
Глава 3. Оценка качества алгоритма 32
3.1. Сравнение новой версии IonHammer со старой 32
3.2. Сравнение IonHammer с другими алгоритмами коррекции 34
Заключение 38
Список литературы 39
Приложение А. Псевдокод алгоритмов 41
Приложение Б. Наборы данных 44
Приложение В. Сравнение времени работы алгоритмов 45
Приложение Г. Таблицы с качеством коррекции чтений 47
Приложение Д. Результаты сборки генома 53

Совокупность наследственного материала, заключенного в клетке организма, на­зывается геномом. В геноме содержится биологическая информация, определяющая развитие организма. Обычно геномы живых организмов построены на основе макро­молекул дезоксирибонуклеиновой кислоты (ДНК). Изучение ДНК позволяет решать широкий спектр задач, среди которых:
• История развития жизни на планете.
• Выявление причин и лечение передающихся по наследству заболеваний.
• Поиск новых антибиотиков и других лекарств.
• Различные задачи генной инженерии (например, разработка генно-модифициро­ванных продуктов).
Для изучения ДНК ее требуется преобразовать из макромолекулы в удобный для анализа формат — строчку над алфавитом {Л, С, G, Т}. Процесс преобразования макромолекулы в строчку называется секвенированием ДНК. Это сложная задача и на сегодняшний день не существует метода, позволяющего получить полную цепоч­ку ДНК. Вместо этого, существующие технологии читают много небольших участков ДНК, на основе которых с помощью специальных алгоритмов затем восстанавлива­ется полная цепочка. К сожалению, секвенированные участки содержат ошибки, что усложняет, а иногда и делает невозможным восстановление полной цепочки и возника­ет необходимость эти ошибки исправлять. Как и в большинстве задач, универсального «инструмента», позволяющего исправлять ошибки для разных технологий секвениро­вания не существует — в разных технологиях совершаются разные ошибки и требуются различные подходы к их исправлению.
Одной из самых распространенных технологий секвенирования является техноло­гия ILLUMINA. Для данной технологии основой тип ошибок — замена одного нуклео­тида на другой. Для коррекции ошибок такого рода существует алгоритм алгоритм BAYESHAMMER [1], являющийся частью геномного ассемблера SPADES [2]. Кроме то­го, в SPADES реализован алгоритм коррекции ошибок вида «вставка» или «удаление» IONHAMMER, предназначенный для исправления ошибок, возникающий при секвениро­вании с помощью технологии IONTORRENT. Данная версия алгоритма коррекции обла­дает несколькими недостатками, из-за которых алгоритм может работать достаточно долго, а также исправляет небольшое число ошибок.
В данной работе предложена и реализована модификация алгоритма IonHammer, а также исследовано качество и время работы новой версии алгоритма.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе представлена новая версия алгоритма IonHammer, предна­значенного для исправления ошибок в чтениях, полученных с помощью технологии IonTorrent.
В рамках данной работы в предыдущую версию IonHammer внесены существен­ные изменения:
1. Существенно ускорено время работы шаг по поиску компонент связности EDi-графа.
2. Предложен и реализован метод автоматической оценки параметров, необходи­мый для шага субкластеризации, а также для фильтрации ошибочных кластеров ЛА-меров.
3. Реализован новый метод исправления ошибок в чтениях на основе оценки множе­ства геномных ^fe-меров.
Проведен анализ качества и скорости работы новой версии алгоритма. Предложен­ная в данной работе модификация IonHammer показывает высокое качество коррек­ции. Кроме того, новая версия алгоритма является наиболее быстрым и эффективным методом коррекции ошибок в данных IonTorrent.
Проведенные исследования показывают, что высокое качество работы IonHammer позволяет применять в различных задачах анализа и обработки чтений различных бак­терий. Одним из таких приложений является задача сборки генома. За счет высокой скорости работы новая версия IonHammer позволяет уменьшить время, необходимое для сборки генома бактерий с помощью геномного ассемблера SPAdes, не теряя при этом в качестве.
В заключение отметим, что современные технологии не стоят на месте. Появляют­ся новые методы секвенирования. Идеи, на которых основан IonHammer, достаточно универсальны и алгоритм коррекции можно будет адаптировать и под будущие техно­логии, если им будут свойственны ошибки вида «вставки и удаления».


1. Nikolenko S., Korobeynikov A., Alekseyev M. Bayeshammer: Bayesian clustering for error correction in single-cell sequencing // BMC Genomics. — 2013. — Vol. 14, no. 1. — P. S7.—online; accessed: http://dx.doi.org/10.1186/1471-2164-14-S1-S7.
2. Assembling single-cell genomes and mini-metagenomes from chimeric MDA products / S. Nurk, A. Bankevich, D. Antipov et al. //J. Comput. Biol. — 2013. — Oct.—Vol. 20, no. 10. —P. 714-737.
3. В. И. Левенштейн. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. — 1965. —Vol. 163, no. 4. —P. 845-848.
4. Technical note. the per-base quality score system. — Access mode: http://chase.iontorrent.com/ion-docs/Technical-Note Quality-Score_6128102.html (online; accessed: 09.05.2017).
5. Pevzner P. A., Tang H., Waterman M. S. An Eulerian path approach to DNA fragment assembly // Proceedings of the National Academy of Sciences. — 2001. — Aug. — Vol. 98, no. 17.—P. 9748-9753.—Access mode: http://dx.doi.org/10.1073/pnas. 171285098.
6. Scott E., Kakaradov B. Error correction of high-throughput sequencing datasets with non-uniform coverage // Bioinformatics. — 2011.—Vol. 27, no. 13. — P. i137-41.
7. Cache-oblivious peeling of random hypergraphs / Djamal Belazzougui, Paolo Boldi, Giuseppe Ottaviano et al. // CoRR. — 2013. — Vol. abs/1312.0526. — Access mode: http://arxiv.org/abs/1312.0526.
8. Lander E. S., Waterman M. S. Genomic mapping by fingerprinting random clones: A mathematical analysis // Genomics. — 1988. — Apr. —Vol. 2, no. 3. — P. 231-239. — Access mode: http://dx.doi.org/10.1016/0888-7543(88)90007-9.
9. Tarjan R. E. Efficiency of a good but not linear set union algorithm //J. ACM. — 1975. — Apr.—Vol. 22, no. 2. — P. 215-225. — Access mode: http://doi.acm.org/10. 1145/321879.321884.
10. Marinier E., Brown D. G., McConkey B. J. Pollux: platform independent error correction of single and mixed genomes // BMC Bioinformatics. — 2015. — Vol. 16, no. 1. — P. 10. — Access mode: http://dx.doi.org/10.1186/s12859-014-0435-6.
11. Salmela L., Schroder J. Correcting errors in short reads by multiple alignments // Bioinformatics. — 2011. — Jun. — Vol. 27, no. 11. — P. 1455-1461. — Access mode: http://dx.doi.org/10.1093/bioinformatics/btr170.
12. Fiona: a parallel and automatic strategy for read error correction / M. H. Schulz, D. Weese, M. Holtgrewe et al. // Bioinformatics. — 2014. — Sep. — Vol. 30, no. 17. — P. i356-363.
13. QUAST: quality assessment tool for genome assemblies / A. Gurevich, V. Saveliev, N. Vyahhi, G. Tesler // Bioinformatics. — 2013. — Apr. —Vol. 29, no. 8. — P. 1072-1075.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ