ВВЕДЕНИЕ 3
1 Обзор литературы 5
1.1 Методы секвенирования транскриптома 5
1.1.1 Библиотека «поли-А» РНК 5
1.1.2 Секвенирование некодирующих РНК 6
1.1.3 Прямое секвенирование РНК 6
1.2 Сборка RNA-Seq данных 7
1.2.1 Особенности сборки транскриптома 7
1.2.2 Типы транскриптомных ассемблеров 8
1.2.3 Алгоритмические подходы 8
1.2.4 Trinity 9
1.2.5 Velvet-Oases 11
1.2.6 Trans-ABySS 12
1.2.7 Multiple-k 13
1.2.8 Сравнительная характеристика ассемблеров 13
1.3 Кластеризация данных 14
1.3.1 Методы кластеризации 15
1.3.2 Метод динамических ядер 16
1.3.3 Выбор меры расстояния 16
1.3.4 Методы визуализации данных 17
1.3.5 Программа ViDa Expert 18
2 Материалы и методы 19
2.1 Обработка и сборка данных секвенирования 19
2.2 Частотный словарь триплетов 20
3 Результаты и обсуждения 23
3.1 Результаты ассемблирования 23
3.2 Результаты кластеризации 25
3.2.1 Величина невязки 28
3.2.2 Результаты GenBank 31
3.3 Шестикластерная структура транскриптома 32
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 36
Достижения в области технологий секвенирования нового поколения (NGS) и разработки биоинформатического программного обеспечения сделали возможным расшифровку нуклеотидных последовательностей больших геномов. Стали реальными также секвенирование и анализ транскриптомов немодельных организмов.
Предметом нашего исследования стали хвойные растения, которые имеют отличные от модельных организмов признаки: медленный рост, огромный размер богатого повторяющимися последовательностями генома (в основном, в виде транспозонов и тандемных повторов) и удивительно высокая фенотипическая пластичность.
Целью настоящей работы стали de novoсборка транскриптома лиственницы сибирской (Larix sibirica Ledeb.) и проведение разведывательного кластерного анализа.
Для достижения данной цели, были поставлены следующие задачи:
- Провести предварительную обработку данных секвенирования;
- Осуществить de novoсборку транскриптома;
- Провести оценку качества сборки;
- Провести разведывательный кластерный анализ
Актуальность данной работы заключается в том, что хвойные леса занимают свыше 80% лесопокрытой площади России и имеют очень важные экологическое и экономическое значения. Они оказывают огромное влияние на экологию и климат, играют важную роль в поглощении углерода и предотвращении последствий глобального потепления климата. Изучение данных видов может помочь в разработке природоохранных мероприятий и решить вопросы, связанные с гибелью лесов вследствие незаконной рубки и воздействия различных вредителей и заболеваний. Помимо прочего, анализ транскриптома играет важную роль в изучении регуляции экспрессии генов и регуляторных механизмов клетки и организма в целом, что является одной из актуальных проблем современной биологии.
Для упрощения обработки такого большого объема данных используется кластерный анализ, который позволяет резко сокращать, сжимать большие массивы информации по целому набору признаков, делать их компактными и наглядными, не накладывая при этом никаких ограничений на вид рассматриваемых данных. Таким образом, дальнейшая обработка сводится к работе с интересуемыми исследователя кластерами по отдельности.
Результаты работы были представлены на следующих международных и Всероссийских конференциях:
- 53-я Международная научная студенческая конференция, г. Новосибирск;
- 54-я Международная научная студенческая конференция, г. Новосибирск;
- Седьмая Международная Школа молодых ученых «Системная биология и биоинформатика», г. Новосибирск;
- Международная конференция студентов, аспирантов и молодых ученых «Проспект Свободный-2015», г. Красноярск;
- Третья летняя школа по биоинформатике, г. Москва;
- 3-я Международная конференция «Генетика, геномика,биоинформатика и биотехнология растений», г. Новосибирск;
- The ProCoGen Final Open International Conference and Workshops on Promoting Conifer Genomic Resources, Orleans, France;
- 4-ое Международное совещание “Сохранение лесных генетических ресурсов Сибири”, г. Барнаул;
- IWBBIO-2016, Granada, Spain.
В ходе данной работы были выполнены все поставленные задачи, а именно:
- проведена предварительная обработка данных секвенирования, в результате которой было получено 5090255 высококачественных парноконцевых чтений транскриптома лиственницы сибирской с Q > 20 (вероятность ошибки секвенирования не более 1 %);
- впервые осуществлена de novoсборка транскриптома лиственницы сибирской, длина которого составила 26493048 п.о.;
- составлены и изучены методами динамических ядер и упругих карт частотные словари различных типов для транскриптомных данных;
- определены свойства кластеров для частотных словарей первого типа;
- получена 6-кластерная структура для частотных словарей второго- четвертого типов.
Таким образом, поставленная в бакалаврской работе цель полностью достигнута.
1. Молекулярная биология клетки: в трех томах / Б. Альбертс [и др.] - 2. - Москва : Мир, 1994. - Т. 1. - 517 с.;
2. Ansorge, W. J. Next-generation DNA sequencing techniques // N Biotechnol. - 2009. - 25. - Pp. 195-203;
3. Касьянов, А. С. Новые методы обработки данных, полученных с помощью современных технологий секвенирования, для решения задач анализа экспрессии генов : автореф. дис. ... канд. физ.-мат. наук : 03.01.03 / Касьянов Артем Сергеевич. - Москва, 2012. - 23 с.;
4. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics // Nat Rev Genet. - 2009. - 10(1). - Pp. 57-63;
5. Pollack, J. R., et al. Genome-wide analysis of DNA copy-number changes using cDNA microarrays // Nat Genet. - 1999. - 23(1). - Pp. 41-46;
6. Morin, R., et al. Profiling the HeLa S3 transcriptome using randomly primed cDNA and massively parallel short-read sequencing // BioTechniques. - 2008. - 45(1). - Pp. 81-94;
7. Cui, P., et al. A comparison between ribo-minus RNA-sequencing and polyA-selected RNA-sequencing // Genomics. - 2010. - 96(5). - 259-265;
8. Freeman, W. M., Walker, S. J., Vrana, K. E. Quantitative RT-PCR: pitfalls and potential // BioTechniques. - 1999. - 26(1). - 112-125;
9. Ozsolak, F., Platt, A. R., Jones D. R., Reifenberger, J. G., Sass, L. E., McInerney, P., Thompson, J. F., Bowers, J., Jarosz, M., Milos, P. M. Direct RNA sequencing // Nature. - 2009. - 461. - Pp. 814-818;
10. Miller, J. R, Koren, S., Sutton, G. Assembly Algorithms for Next-Generation Sequencing Data // Genomics. - 2010. - 95(6). - Pp. 315-327;
11. De Bruijn, N. G. A combinatorial problem // Koninklijke Nederlandse Akademie v. Wetenschappen. - 1946. - 49. - Pp. 758-764;
12. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome // Nature Biotechnology. - 2011. - 29. - Pp. 644¬654;
13. Schulz, M. H., Zerbino, D. R., Vingron, M., Birney, E. Oases: robust de novo RNA-seq assembly across the dynamic range of expression levels // Bioinformatics. - 2012. - 28(8) - Pp. 1086-1092;
14. Robertson, G., et al. De novo assembly and analysis of RNA-seq data // Nature methods. - 2010. - 7(11). - Pp. 909-915;
15. Surget-Groba, Y., Montoya-Burgos, J. Optimization of de novo transcriptome assembly from next-generation sequencing data // Genome Res. - 2010. - 20(10). - Pp. 1432-1440;
16. Estivill-Castro, V. Why so many clustering algorithms: a position paper // ACM SIGKDD Explorations Newsletter. - 2002. - 4(1). - Pp. 65-75;
17. Hastie, T., Tibshirani, R., Friedman, J. The EM algorithm // Springer : The Elements of Statistical Learning, 2001. - Pp. 236-243;
18. Ester, M., Kriegel, H.-P.; Sander, J., Xu, X. A density-based algorithm for discovering clusters in large spatial databases with noise // AAAI Press : Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, 1996. - Pp. 226-231;
19. MacQueen, J. Some methods for classification and analysis of multivariate observations // In Proc. 5th Berkeley Symp. on Math. Statistics and Probability. - 1967. - Pp. 281-297;
20. Садовский, М. Г., Чернышова, А. И. Выявление связи структуры и таксономии геномов хлоропластов методом динамических ядер // Фундаментальные исследования. - 2014. - 11(3). - С. 545-549;
21. Deza, E., Deza, M. M. Encyclopedia of Distances // Springer. - 2009. - 94 p.;
22. Gorban, A. N., Kegl, B., Wunsch, D., Zinovyev A. Principal Manifolds for Data Visualization and Dimension Reduction // Springer. - 2007;
23. Зиновьев, А. Ю. Метод упругих карт для визуализации данных: алгоритмы, программное обеспечение и приложения в биоинформатике : автореф. дис., канд. физ.-мат. наук : 05.13.11 / Зиновьев Андрей Юрьевич. - Красноярск, 2001. - 27 с.
24. А. Ю. Зиновьев Визуализация многомерных данных // Красноярск: Изд-во КГТУ, 2000. - 168 с.
25. Gorban, A. N., Zinovyev, A. Yu. Visualization of Data by Method of Elastic Maps and Its Applications in Genomics, Economics and Sociology // IHES Preprint, 2002.;
26. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2 // Nature Methods. - 2012. - 9. - Pp. 357-359;
27. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: A flexible trimmer for Illumina Sequence Data // Bioinformatics. - 2014. - btu170.;
28. Gorban, A. N., Popova, T. G., Sadovsky, M. G., Wunsch, D. C. Information content of the frequency dictionaries, reconstruction, transformation and classification of dictionaries and genetic texts // Smart Engineering System Design. - 2001. - 11. - Pp. 657-663;
29. Gurevich, A., Saveliev, V., Vyahhi, N., Tesler, G. QUAST: quality assessment tool for genome assemblies // Bioinformatics. - 2013. - 29(8). - Pp. 1072-1075;
30. Wegrzyn, J. L., Lee, J. M., Tearse, B. R., Neale, D. B. TreeGenes: A Forest Tree Genome Database // International Journal of Plant Genomics. - 2008. - 2008. - 7 p.;
31. Albrecht-Buehler, G. Inversions and inverted transpositions as the basis for an almost universal "format" of genome sequences // Genomics. - 2007. - 90(3). - Pp. 297-305;
32. Гребнев, Я. В., Садовский, М. Г. Второе правило Чаргаффа и симметрия геномов // Фундаментальные исследования. - 2014. - 12-5. - С. 965-968.;
33. Mascher, M., Schubert, I., Scholz, U., Friedel, S. Patterns of nucleotide asymmetries in plant and animal genomes // BioSystems. - 2013. - 111(3). - Pp. 181-189;
34. Afreixo, V., Rodrigues, J. M., Bastos, C. A. Analysis of single-strand exceptional word symmetry in the human genome: new measures // Biostatistics. - 2015. - 16(2). - Pp. 209-221;
35. Gorban, A. N., Zinovyev, A. Y., Popova, T. G. Seven clusters in genomic triplet distributions // In Silico Biol. - 2003. - 3(4). - Pp. 471-482.