ВВЕДЕНИЕ 5
1 Обзор литературы 7
1.1 Актуальность исследования геномов хвойных 7
1.2 Сборка генома 8
1.2.1 Особенности данных Illumina и оценка качества 8
1.2.2 Методы ассемблирования 10
1.2.3 Выравнивание ридов на геном 14
1.3 Аннотация генома 17
1.3.1 Проверка качества и маскировка повторов 17
1.3.2 Предсказание кодирующих областей и функциональная аннотация. .19
1.4 Однонуклеотидные полиморфизмы 21
1.5 Кластеризация 22
1.5.1 Метод динамических ядер (k-means) 24
1.5.2 Упругие карты 26
1.5.3 Частотные словари 28
2 Материалы и методы 29
2.1 Сборка хлоропластного генома лиственницы сибирской 29
2.2 Поиск кодирующих участков и аннотирование 30
2.3 Поиск однонуклеотидных полиморфизмов 31
2.4 Построение частотных словарей 32
2.5 Классификация методом динамических ядер 33
2.6 Абсолютная и относительная фаза фрагмента в геноме 33
2.7 Построение упругой карты 34
3 Результаты 36
3.1 Сборка, аннотирование и поиск SNP 36
3.2 Кластеризация методом k-means 37
3.3 Кластеризация методом упругих карт 38
4 Обсуждение результатов 42
ПРИЛОЖЕНИЕ 44
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Широкое распространение технологий секвенирования нового поколения в последние десятилетия, позволившее сравнительно быстро и с гораздо меньшими затратами проводить геномные исследования, дало толчок развитию разнообразных методов биоинформатики для целей обработки получаемых данных. Подобные ДНК-технологии находят своё применение, в частности, в области изучения особенностей процессов, происходящих в популяциях, для решения задач селекции, сохранения биоразнообразия.
Хвойные растения составляют огромную часть лесного массива Сибири и Дальнего востока. Для геномов растений характерно наличие строго определенной системы наследования - передача митохондриальной ДНК по материнской линии, а хлоропластной - по отцовской [1]. Работа с митохондриальными геномами хвойных сопряжена с определенными трудностями - он сравнительно велик и обладает высоким уровнем структурных перестроек. Поэтому именно последовательности хлоропластной ДНК разных видов хвойных являются на сегодня важным источником генетических маркеров в популяционных и филогенетических исследованиях.
К настоящему моменту из более чем 100 депонированных в базе данных NCBI геномов хлоропластов семейства Pinaceaeбольшинство относятся к роду Pinus,и лишь два вида - к роду Larix.По состоянию на 20 апреля 2015 года в базе данных Genbank опубликовано 117 хлоропластных геномов представителей семейства Сосновые. Для представителей рода Larix опубликованы две последовательности хлоропластных геномов для видов L.decidua Mill. и L.occidentalis Nutt. Полная последовательность хлоропластного генома L. sibiricaв базе данных отсутствует, имеется лишь 11 последовательностей некоторых генов и их частей.
Цель настоящей работы — сборка и аннотирование хлоропластного генома лиственницы сибирской (Larix sibirica Ledeb., 1833), поиск однонуклеотидных полиморфизмов (SNPs), а также исследование геномной последовательности с помощью математических методов анализа многомерных данных.
В связи с этим были поставлены следующие задачи:
• Сборка хлоропластного генома L. Sibirica;
• Поиск кодирующих участков и их аннотирование;
• Поиск однонуклеотидных полиморфизмов среди генетического материала трех деревьев, произрастающих в разных регионах России.
• Анализ частотного словаря хлоропластного генома Larix sibiricaв программе VidaExpert.