Тип работы:
Предмет:
Язык работы:


КЛАСТЕРНЫЙ АНАЛИЗ РЕЗУЛЬТАТОВ DE NOVOСБОРКИ ГЕНОМА ЛИСТВЕННИЦЫ СИБИРСКОЙ

Работа №24813

Тип работы

Бакалаврская работа

Предмет

биология

Объем работы33
Год сдачи2016
Стоимость5600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
229
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
ОСНОВНАЯ ЧАСТЬ 5
1 Обзор литературы 5
1.1 Методы кластеризации и меры расстояний 5
1.2 Частотные словари 9
1.3 Визуализация данных 11
1.4 Метод BLAST (Basic Local Alignment Search Tool) 13
2 Материалы и методы 15
2.1 Характеристики сборки и получение выборок 15
2.2 Метод динамических ядер (k-means) 16
2.3 Второе обобщенное правило Чаргаффа и величина невязки 18
3 Результаты и обсуждение 19
3.1 Выборка самых длинных контигов 19
3.2 Выборка контигов, длиной 10000 п.н.о 22
3.3 Выборка контигов, длиной 3000 п.н.о 23
3.4 Выборка длин по среднему значению 25
3.5 Выборка наименьших длин 26
3.6 GC-контент выборок 28
ЗАКЛЮЧЕНИЕ 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32


Существует достаточно большая группа организмов, работа с геномом которых весьма затруднительна. Например, хвойные, существенно отличающиеся от модельных растений. Геном хвойных обладает большой фенотипической пластичностью, богат повторяющимися нуклеотидными последовательностями и, как следствие, имеет большой размер - 12-30 Gb (миллиардов нуклеотидных оснований). По последним данным, геном хвойных может включать в себя до 82 % повторяющихся последовательностей [1].
Очень часто алгоритмы обработки геномных данных не рассчитаны на такой большой объем информации и, как следствие, такие программы требуют огромных вычислительных мощностей, тратят большое количество времени на работу, либо не работают вовсе. В данной работе рассматривалось применение кластеризации как способ предобработки данных, который бы отчасти смог решить эти проблемы.
Кластеризация как метод несет в себе три функции [2]:
1. Понимание данных путем выявления кластерной структуры. Для каждого обнаруженного кластера можно применить особый метод анализа.
2. Сжатие данных. Дальнейшая работа только с интересующими нас кластерами позволит существенно снизить размерность данных. Также возможна работа только с характерными представителями каждого кластера.
3. Обнаружение ранее не изученных объектов и закономерностей. Нетипичные по своей структуре последовательности скорее всего не будут принадлежать ни к одному из кластеров, либо составлять отдельный малый кластер, заслуживающий специального изучения.
Все три пункта позволят упростить работу с геномными данными, особенно если эти данные велики и ранее не аннотированы.
Тема этой работы «Кластерный анализ результатов de novoсборки генома лиственницы сибирской».
Целью настоящей работы является поиск структурных групп контигов генома лиственницы сибирской на основе кластеризации.
Задачи проведенного исследования:
1. Выбрать подходящий для наших данных метод классификации и меру расстояния;
2. Освоить метод динамических ядер ( k -means), метод упругих карт;
3. Выявить структурно обособленные группы контигов генома лиственницы сибирской;
4. Проанализировать выявленные группы на предмет функциональной обособленности;
5. Визуализировать данные и результаты;
6. Оценить структуру используемой геномной сборки.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе показано, что кластеризация методом динамических ядер позволяет разделить последовательности генома на структурно различные группы. Подтверждено снижение чувствительности частотных словарей по мере уменьшения длин последовательностей, составляющих выборку.
Геномная сборка лиственницы не однородна по структурному составу, встречаются последовательности, резко отличающиеся по частотам триплетов и GC-контенту. Возможное объяснение такой разнородности - примеси митохондриального генома и бактериальные контаминации. Необходимо продолжить анализ таких последовательностей.



1. Nystedt B, Street NR, Wetterbom A et al. The Norway spruce genome sequence and conifer genome evolution // Nature. - 2013. - 497(7451);
2. Мандель, И.Д. Кластерный анализ / Финансы и статистика. - Москва, 1988. - С. 10;
3. Воронцов, К.В. Алгоритмы кластеризации // Лекции по алгоритмам кластеризации и многомерного шкалирования. - 2007. - С. 2;
4. Бериков, В.Б., Лбов, Г.С. Современные тенденции в кластерном анализе // Информационно-телекоммуникационные системы. - 2008. - С. 6-9;
5. Ichino M., Yaguchi H. Generalized Minkowski Metrics for Mixed Feature-Type Data Analysis // Advances in Data Science and Classification. - 1994. - Pp. 698-708;
6. Deza E., Deza M.M.. Encyclopedia of Distances / Springer-Verlag Berlin Heidelberg, 2009. - Pp. 583;
7. Sims GE, Jun S-R, Wu GA, Kim S-H. Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions // Proceedings of the National Academy of Sciences of the United States of America.
- 2009. - 106(8). Pp. - 2677-2682;
8. Vinga S, Almeida J. Alignment-free sequence comparison—a review // Bioinformatics. - 2003. - 19(4). Pp. - 513-523;
9. Sadovsky, M.G., Birukov, V.V., Putintseva, Y.A., Oreshkova, N.V., Vaganov, E.A. and Krutovsky, K.V. Symmetry of Siberian Larch Transcriptome // Journal of Siberian Federal University: Biology. - 8(3). - Pp. 278-286.
10. Зиновьев, А.Ю. Визуализация многомерных данных / Изд. КГТУ. - Красноярск. - 2000. С. - 180.
11. Gorban A, Pitenko A, Zinovyev A. ViDaExpert: user-friendly tool for nonlinear visualization and analysis of multidimensional vectorial data // arXiv:1406.5550v2. - 2014. P. - 9.
12. ViDaExpert - is a software for multidimensional vectorial data visualizationhttp://bioinfo-out.curie.fr/projects/vidaexpert/;
13. Altschul S., Gish W., Miller W., Myers E., and Lipman D. Basic local alignment search tool // Journal of Molecular Biology. - 1990. - 215(3);
14. Madden TL, McGinnis S. Blast: at the core of a powerful and diverse set of sequence analysis tools // Nucleic Acids Res. - 2004;
15. Котов А., Красильников Н. Кластеризация данных [Электронный ресурс]. - 2006. С. - 16;
16. Нейский И.М. Классификация и сравнение методов кластеризации // Интеллектуальные технологии и системы. Сборник учебно¬методических работ и статей аспирантов и студентов. - М. - 2006. - С. 130¬142;
17. Telgarsky M., Vattani A. Hartigan's Method: k-means Clustering without Voronoi // Journal of Machine Learning Research. - 2010. P. - 9;
18. Hartigan JA. Algorithm AS 136: A K-Means Clustering Algorithm // Journal of the Royal Statistical Society. - 1979. - 28(1). Pp. - 100-108;
19. Гребнев, Я. В., Садовский, М. Г. Второе правило Чаргаффа и симметрия геномов // Фундаментальные исследования. - 2014. №12-5. C. - 4.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ