ВВЕДЕНИЕ 3
ОСНОВНАЯ ЧАСТЬ 5
1 Обзор литературы 5
1.1 Методы кластеризации и меры расстояний 5
1.2 Частотные словари 9
1.3 Визуализация данных 11
1.4 Метод BLAST (Basic Local Alignment Search Tool) 13
2 Материалы и методы 15
2.1 Характеристики сборки и получение выборок 15
2.2 Метод динамических ядер (k-means) 16
2.3 Второе обобщенное правило Чаргаффа и величина невязки 18
3 Результаты и обсуждение 19
3.1 Выборка самых длинных контигов 19
3.2 Выборка контигов, длиной 10000 п.н.о 22
3.3 Выборка контигов, длиной 3000 п.н.о 23
3.4 Выборка длин по среднему значению 25
3.5 Выборка наименьших длин 26
3.6 GC-контент выборок 28
ЗАКЛЮЧЕНИЕ 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32
Существует достаточно большая группа организмов, работа с геномом которых весьма затруднительна. Например, хвойные, существенно отличающиеся от модельных растений. Геном хвойных обладает большой фенотипической пластичностью, богат повторяющимися нуклеотидными последовательностями и, как следствие, имеет большой размер - 12-30 Gb (миллиардов нуклеотидных оснований). По последним данным, геном хвойных может включать в себя до 82 % повторяющихся последовательностей [1].
Очень часто алгоритмы обработки геномных данных не рассчитаны на такой большой объем информации и, как следствие, такие программы требуют огромных вычислительных мощностей, тратят большое количество времени на работу, либо не работают вовсе. В данной работе рассматривалось применение кластеризации как способ предобработки данных, который бы отчасти смог решить эти проблемы.
Кластеризация как метод несет в себе три функции [2]:
1. Понимание данных путем выявления кластерной структуры. Для каждого обнаруженного кластера можно применить особый метод анализа.
2. Сжатие данных. Дальнейшая работа только с интересующими нас кластерами позволит существенно снизить размерность данных. Также возможна работа только с характерными представителями каждого кластера.
3. Обнаружение ранее не изученных объектов и закономерностей. Нетипичные по своей структуре последовательности скорее всего не будут принадлежать ни к одному из кластеров, либо составлять отдельный малый кластер, заслуживающий специального изучения.
Все три пункта позволят упростить работу с геномными данными, особенно если эти данные велики и ранее не аннотированы.
Тема этой работы «Кластерный анализ результатов de novoсборки генома лиственницы сибирской».
Целью настоящей работы является поиск структурных групп контигов генома лиственницы сибирской на основе кластеризации.
Задачи проведенного исследования:
1. Выбрать подходящий для наших данных метод классификации и меру расстояния;
2. Освоить метод динамических ядер ( k -means), метод упругих карт;
3. Выявить структурно обособленные группы контигов генома лиственницы сибирской;
4. Проанализировать выявленные группы на предмет функциональной обособленности;
5. Визуализировать данные и результаты;
6. Оценить структуру используемой геномной сборки.
В данной работе показано, что кластеризация методом динамических ядер позволяет разделить последовательности генома на структурно различные группы. Подтверждено снижение чувствительности частотных словарей по мере уменьшения длин последовательностей, составляющих выборку.
Геномная сборка лиственницы не однородна по структурному составу, встречаются последовательности, резко отличающиеся по частотам триплетов и GC-контенту. Возможное объяснение такой разнородности - примеси митохондриального генома и бактериальные контаминации. Необходимо продолжить анализ таких последовательностей.