Введение 4
1 Основные понятия и определения, обзор литературы 6
1.1 Постановка задачи 6
1.1.1 Частотные словари и их свойства 7
1.1.2 О расстоянии между словарями 8
1.1.3 Об исключении триплета 8
1.1.4 Слоистые графы 9
1.2 Обзор литературы 11
2 Материалы и методы 13
2.1 База данных 13
2.1.1 Соглашение о лишних символах 13
2.1.2 О выборе триплета 14
2.1.3 О программе ViDaExpert 15
2.1.4 Метод динамических ядер 16
2.1.5 Классификация снизу вверх и сверху вниз 18
2.1.6 Устойчивая и неустойчивая кластеризация 19
2.2 Метод упругих карт 20
3 Результаты и обсуждение 22
3.1 Результаты кластеризации геномов хлоропластов 22
3.1.1 Различимость классов 23
3.2 О составе классов, выделяемых методом динамических ядер 24
4 Выводы 29
Литература
Изучение биологических макромолекул является одной из центральных проблем современной биологии, биотехнологии, биоинформатики и других смежных наук. Большое внимание привлекает к себе выявление и описание структурированности во множестве генетических данных [1–3,5,6]. Настоящая работа посвящена выявлению связи между структурой и таксономией
на примере геномов хлоропластов. Данные генетические объекты были выбраны не случайно: прежде всего они обладают небольшим размером. Хлоропласты — внутриклеточные органоиды (пластиды) растений, в которых
осуществляется фотосинтез. Их размер колеблется от 4 до 10 мкм, а число
составляет от 20 до 100 на клетку [4]. Во-вторых, с точки зрения частотных
словарей хлоропласты более менее однородны внутри, что так же является
одной из причин выбора данных структур.
Цель данной работы — выявление, описание и анализ связи между
структурой и таксономией геномов хлоропластов. Для достижения цели необходимо решить следующие задачи:
– определить, что такое структура и таксономия в рамках данного исследования;
– определить, насколько разные геномы оказываются близкими по структуре и формируют ли они кластеры;
4ОГЛАВЛЕНИЕ 5
– выделить такие кластеры;
– изучить структуру кластеров в терминах случайности и неслучайности
их состава и связи между такими кластерами.
Основные результаты работы были представлены на международных
и Всероссийских конференциях:
– Международная научная конференция «Проспект Свободный — 2016»,
2016, г. Красноярск, устный доклад «Построение связи между структурой и таксономией геномов хлоропластов сосен»;
– МНСК 2015, г. Новосибирск, устный доклад «Проявление синхронизации в эволюции геномов растений»;
– Всероссийский семинар по нейроинформатике, 2014 г., г. Красноярск,
устный доклад «Проявление синхронизации в эволюции геномов растений и их хлоропластов»;
– IWBBIO 2015, Granada, Spain, устный доклад «Genome Structure of
organelles strongly relates to taxonomy of bearers»;
– XIV Межд. ФАМ-конференция, Красноярск, 2015, устный доклад «Синхронизация эволюции растений и их хлоропластов»;
– ECCS 2014, Lucca, Italy, устный доклад «Revealing the Relation Between
Structure of Chloroplast Genomes and Host Taxonomy»;
– BioMath 2014, B¸edlevo, Poland, устный доклад «Very high synchrony in
evolution of organelles and host genomes»;
– МНСК 2014, г. Новосибирск, устный доклад «Выявление связи между
структурой и таксономией геномов хлоропластов».
Основные результаты работы также опубликованы в 10 публикациях
(см. список литературы)
Высоко упорядоченное распределение видов и родов по классам, определяемым лишь частотами триплетов в геномах хлоропластов, доказывает
факт сильной синхронизации в эволюции двух генетических систем — соматической и геномов хлоропластов.
Таким образом, показано существование очень высокого уровня синхронизации геномов хлоропластов и соматических геномов растений, несущих эти хлоропласты. Физически они друг с другом никак не связаны. Доказательством служит тот факт, что различные таксоны расходятся по классам
неслучайно: выделяются весьма устойчивые группы родов/семейств, всегда
попадающие в один класс.