Введение 5
Глава 1. Постановка задачи и профиль ошибок технологии секвенирования lONTORRENT 7
1.1. Основные обозначения 7
1.2. Задача исправления ошибок 8
1.3. Профиль ошибок 8
1.4. Quality-значения технологии lONTORRENT 9
Глава 2. Метод исправления ошибок 13
2.1. Основная идея алгоритма BAYESHAMMER 13
2.2. IonHammer 15
2.3. Алгоритм оценки множества геномных ЛА-меров 16
2.3.1. Статистики по встретившимся ЛА-мерам 16
2.3.2. Кластеризация EDi-графа 18
2.3.3. Субкластеризация 21
2.3.4. Отличия от предыдущей версии IonHammer 23
2.3.5. Качество алгоритма кластеризации 24
2.4. Алгоритм коррекции ошибок 25
2.4.1. Алгоритм коррекции 25
2.4.2. Функция штрафа 29
Глава 3. Оценка качества алгоритма 32
3.1. Сравнение новой версии IonHammer со старой 32
3.2. Сравнение IonHammer с другими алгоритмами коррекции 34
Заключение 38
Список литературы 39
Приложение А. Псевдокод алгоритмов 41
Приложение Б. Наборы данных 44
Приложение В. Сравнение времени работы алгоритмов 45
Приложение Г. Таблицы с качеством коррекции чтений 47
Приложение Д. Результаты сборки генома 53
Совокупность наследственного материала, заключенного в клетке организма, называется геномом. В геноме содержится биологическая информация, определяющая развитие организма. Обычно геномы живых организмов построены на основе макромолекул дезоксирибонуклеиновой кислоты (ДНК). Изучение ДНК позволяет решать широкий спектр задач, среди которых:
• История развития жизни на планете.
• Выявление причин и лечение передающихся по наследству заболеваний.
• Поиск новых антибиотиков и других лекарств.
• Различные задачи генной инженерии (например, разработка генно-модифицированных продуктов).
Для изучения ДНК ее требуется преобразовать из макромолекулы в удобный для анализа формат — строчку над алфавитом {Л, С, G, Т}. Процесс преобразования макромолекулы в строчку называется секвенированием ДНК. Это сложная задача и на сегодняшний день не существует метода, позволяющего получить полную цепочку ДНК. Вместо этого, существующие технологии читают много небольших участков ДНК, на основе которых с помощью специальных алгоритмов затем восстанавливается полная цепочка. К сожалению, секвенированные участки содержат ошибки, что усложняет, а иногда и делает невозможным восстановление полной цепочки и возникает необходимость эти ошибки исправлять. Как и в большинстве задач, универсального «инструмента», позволяющего исправлять ошибки для разных технологий секвенирования не существует — в разных технологиях совершаются разные ошибки и требуются различные подходы к их исправлению.
Одной из самых распространенных технологий секвенирования является технология ILLUMINA. Для данной технологии основой тип ошибок — замена одного нуклеотида на другой. Для коррекции ошибок такого рода существует алгоритм алгоритм BAYESHAMMER [1], являющийся частью геномного ассемблера SPADES [2]. Кроме того, в SPADES реализован алгоритм коррекции ошибок вида «вставка» или «удаление» IONHAMMER, предназначенный для исправления ошибок, возникающий при секвенировании с помощью технологии IONTORRENT. Данная версия алгоритма коррекции обладает несколькими недостатками, из-за которых алгоритм может работать достаточно долго, а также исправляет небольшое число ошибок.
В данной работе предложена и реализована модификация алгоритма IonHammer, а также исследовано качество и время работы новой версии алгоритма.
В данной работе представлена новая версия алгоритма IonHammer, предназначенного для исправления ошибок в чтениях, полученных с помощью технологии IonTorrent.
В рамках данной работы в предыдущую версию IonHammer внесены существенные изменения:
1. Существенно ускорено время работы шаг по поиску компонент связности EDi-графа.
2. Предложен и реализован метод автоматической оценки параметров, необходимый для шага субкластеризации, а также для фильтрации ошибочных кластеров ЛА-меров.
3. Реализован новый метод исправления ошибок в чтениях на основе оценки множества геномных ^fe-меров.
Проведен анализ качества и скорости работы новой версии алгоритма. Предложенная в данной работе модификация IonHammer показывает высокое качество коррекции. Кроме того, новая версия алгоритма является наиболее быстрым и эффективным методом коррекции ошибок в данных IonTorrent.
Проведенные исследования показывают, что высокое качество работы IonHammer позволяет применять в различных задачах анализа и обработки чтений различных бактерий. Одним из таких приложений является задача сборки генома. За счет высокой скорости работы новая версия IonHammer позволяет уменьшить время, необходимое для сборки генома бактерий с помощью геномного ассемблера SPAdes, не теряя при этом в качестве.
В заключение отметим, что современные технологии не стоят на месте. Появляются новые методы секвенирования. Идеи, на которых основан IonHammer, достаточно универсальны и алгоритм коррекции можно будет адаптировать и под будущие технологии, если им будут свойственны ошибки вида «вставки и удаления».
1. Nikolenko S., Korobeynikov A., Alekseyev M. Bayeshammer: Bayesian clustering for error correction in single-cell sequencing // BMC Genomics. — 2013. — Vol. 14, no. 1. — P. S7.—online; accessed: http://dx.doi.org/10.1186/1471-2164-14-S1-S7.
2. Assembling single-cell genomes and mini-metagenomes from chimeric MDA products / S. Nurk, A. Bankevich, D. Antipov et al. //J. Comput. Biol. — 2013. — Oct.—Vol. 20, no. 10. —P. 714-737.
3. В. И. Левенштейн. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. — 1965. —Vol. 163, no. 4. —P. 845-848.
4. Technical note. the per-base quality score system. — Access mode: http://chase.iontorrent.com/ion-docs/Technical-Note Quality-Score_6128102.html (online; accessed: 09.05.2017).
5. Pevzner P. A., Tang H., Waterman M. S. An Eulerian path approach to DNA fragment assembly // Proceedings of the National Academy of Sciences. — 2001. — Aug. — Vol. 98, no. 17.—P. 9748-9753.—Access mode: http://dx.doi.org/10.1073/pnas. 171285098.
6. Scott E., Kakaradov B. Error correction of high-throughput sequencing datasets with non-uniform coverage // Bioinformatics. — 2011.—Vol. 27, no. 13. — P. i137-41.
7. Cache-oblivious peeling of random hypergraphs / Djamal Belazzougui, Paolo Boldi, Giuseppe Ottaviano et al. // CoRR. — 2013. — Vol. abs/1312.0526. — Access mode: http://arxiv.org/abs/1312.0526.
8. Lander E. S., Waterman M. S. Genomic mapping by fingerprinting random clones: A mathematical analysis // Genomics. — 1988. — Apr. —Vol. 2, no. 3. — P. 231-239. — Access mode: http://dx.doi.org/10.1016/0888-7543(88)90007-9.
9. Tarjan R. E. Efficiency of a good but not linear set union algorithm //J. ACM. — 1975. — Apr.—Vol. 22, no. 2. — P. 215-225. — Access mode: http://doi.acm.org/10. 1145/321879.321884.
10. Marinier E., Brown D. G., McConkey B. J. Pollux: platform independent error correction of single and mixed genomes // BMC Bioinformatics. — 2015. — Vol. 16, no. 1. — P. 10. — Access mode: http://dx.doi.org/10.1186/s12859-014-0435-6.
11. Salmela L., Schroder J. Correcting errors in short reads by multiple alignments // Bioinformatics. — 2011. — Jun. — Vol. 27, no. 11. — P. 1455-1461. — Access mode: http://dx.doi.org/10.1093/bioinformatics/btr170.
12. Fiona: a parallel and automatic strategy for read error correction / M. H. Schulz, D. Weese, M. Holtgrewe et al. // Bioinformatics. — 2014. — Sep. — Vol. 30, no. 17. — P. i356-363.
13. QUAST: quality assessment tool for genome assemblies / A. Gurevich, V. Saveliev, N. Vyahhi, G. Tesler // Bioinformatics. — 2013. — Apr. —Vol. 29, no. 8. — P. 1072-1075.