Генетическая изменчивость является предпосылкой эволюционных изменений. При ее отсутствии никакое последующее видообразование не может быть достигнуто. Генетическая изменчивость в конечном итоге вся генерируется мутациями [1] .
Такие генные мутации, как инверсии, инсерции и делеции в ряду с заменой оснований являются самыми распространенными. Известно, что инверсии оказывают влияние на архитектуру генома как прокариот, так и эукариот, на поведение некоторых насекомых, половую изоляцию и в конечном счете на видообразование [2]. Многие бактерии имеют геном меньше, чем у своих предков из-за многочисленных инсерций, похожая ситуация наблюдается с беспозвоночными (насекомые) и многими позвоночными (рыбы, амфибии, птицы, млекопитающие) [3]. В процессе эволюции происходят вставки в последовательность ДНК, но чаще и намного масштабней происходят делеции. У птиц, возможно, из-за делеций было утрачено чуть менее, чем 300 генов. Таким образом, инверсии и индел вносят немалый вклад в эволюцию, создают «субстрат» для нее и в то же время являются ее инструментом [4].
На сегодняшний день существует два типа выравнивания: парное (сравниваются две последовательности) и множественное (более двух последовательностей). Алгоритмы, чаще используемого множественного выравнивания, не могут учесть инверсии и транслокации. Эти мутации считаются как сумма ин- серций и делеций или же просто делеции. Схожая картина и с парным выравниванием (прогрессивное выравнивание основано на итерации алгоритмов парного выравнивания). На данный момент не существует методов, которые являлись бы достаточно чувствительными к инверсиям и транслокациям.
В данной работе описывается алгоритм, позволяющий детектировать инверсии на основании отношения вероятности их возникновения к вероятности возникновения индел. Так как детекция инверсий через перебор имеет высокую вычислительную сложность, был предложен эвристический алгоритм, который не создает дополнительные копии последовательности и производит поиск инверсий параллельно.
Целью выпускной курсовой работы является разработка нового метода вычисления гомологии геномных последовательностей, который основан на метрике, учитывающей такие мутации ДНК, как делеция, инверсия и вставка.
В соответствии с поставленной целью были выдвинуты следующие задачи:
• Проанализировать существующие метрики построения филогенетических деревьев и выявить их недостатки;
• Разработать новую метрику гомологии геномных последовательностей, учитывающую выявленные на предыдущем этапе недостатки;
• Написать программу для парного выравнивания, учитывающего возможность возникновения инверсий.
Преимуществом разработанной программы выравнивания являются гибкость, так как ее основу можно легко заменить на любой из имеющихся алгоритмов выравнивания, и быстродействие, поскольку алгоритм не перебирает все возможные решения, а пользуется эвристикой.
Разработанный алгоритм позволяет проводить парное выравнивание нуклеотидных последовательностей с учетом возможности возникновения инверсии.
Следующим этапом развития проекта является его валидация на реальных геномных последовательностях, взятых из базы данных NCBI.
1. Hershberg R. Mutation—the engine of evolution: studying mutation and its role in the evolution of bacteria // Cold Spring Harbor perspectives in biology. —
2015. — Т 7, № 9. — a018077.
2. Repar J., Warnecke T. Non-random inversion landscapes in prokaryotic genomes are shaped by heterogeneous selection pressures // Molecular biology and evolution. — 2017. — Т 34, № 8. — С. 1902—1911.
3. Sehn J. K. Insertions and deletions (Indels) // Clinical Genomics. — Elsevier,
2015. — С. 129—150.
4. Evolution of the insertion-deletion mutation rate across the tree of life / W. Sung [и др.] // G3: Genes, Genomes, Genetics. — 2016. — Т 6, № 8. — С. 2583— 2591.
5. An alignment-free method to find and visualise rearrangements between pairs of DNA sequences / D. Pratas [и др.] // Scientific reports. — 2015. — Т 5. — С. 10203.
6. Lee C. Generating consensus sequences from partial order multiple sequence alignment graphs // Bioinformatics. — 2003. — Т 19, № 8. — С. 999—1008.
7. Polymorphism of the IL28B gene (rs8099917, rs12979860) and virological response of Pakistani hepatitis C virus genotype 3 patients to pegylated interferon therapy / H. Aziz [и др.] // International Journal of Infectious Diseases. — 2015. — Т 30. — С. 91—97.
8. Covington M. A. The number of distinct alignments of two strings // Journal of Quantitative Linguistics. — 2004. — Т 11, № 3. — С. 173—182.
9. Torres A., Cabada A., Nieto J.J.An exact formula for the number of alignments between two DNA sequences // DNA Sequence. — 2003. — Т 14, № 6. — С. 427—430.
10. Eddy S. R. Where did the BLOSUM62 alignment score matrix come from? // Nature biotechnology. — 2004. — Т 22, № 8. — С. 1035.
11. Myers E. W, Miller W Optimal alignments in linear space // Bioinformatics. —
1988. — Т 4,№1. — С. 11—17.
12. Loytynoja A. Alignment methods: strategies, challenges, benchmarking, and comparative overview // Evolutionary Genomics. — Springer, 2012. — С. 203—235.
13. Gotoh O. An improved algorithm for matching biological sequences // Journal of molecular biology. — 1982. — Т 162, № 3. — С. 705—708.
14. Cartwright R. A. Logarithmic gap costs decrease alignment accuracy // BMC bioinformatics. — 2006. — Т 7, № 1. — С. 527.
15. Loytynoja A., Goldman N. An algorithm for progressive multiple alignment of sequences with insertions // Proceedings of the National Academy of Sciences. — 2005. — Т 102, № 30. — С. 10557—10562.
16. Landan G., Graur D. Heads or tails: a simple reliability check for multiple sequence alignments // Molecular biology and evolution. — 2007. — Т. 24, №
6. — С. 1380—1383.
17. Loytynoja A., Milinkovitch M. C. SOAP, cleaning multiple alignments from unstable blocks // Bioinformatics. — 2001. — Т 17, № 6. — С. 573—574.
18. An alignment confidence score capturing robustness to guide tree uncertainty /
O. Penn [и др.] // Molecular biology and evolution. — 2010. — Т 27, № 8. — С. 1759—1767.
19. Biological sequence analysis: probabilistic models of proteins and nucleic acids / R. Durbin [и др.]. — Cambridge university press, 1998.
20. Loytynoja A., Goldman N.webPRANK: a phylogeny-aware multiple sequence aligner with interactive alignment browser // BMC bioinformatics. — 2010. — Т 11, № 1. —С. 579.
21. Miklos I., Lunter G., Holmes I. A “long indel” model for evolutionary sequence alignment // Molecular Biology and Evolution. — 2004. — Т. 21, № 3. — С. 529—540.
22. Satija R., Pachter L., Hein J. Combining statistical alignment and phylogenetic footprinting to detect regulatory elements // Bioinformatics. — 2008. — Т. 24, № 10. —С. 1236—1242.
23. Redelings B. D., Suchard M. A. Joint Bayesian estimation of alignment and phylogeny // Systematic biology. — 2005. — Т. 54, № 3. — С. 401—418.
24. M-Coffee: combining multiple sequence alignment methods with T-Coffee /
I. M. Wallace [и др.] // Nucleic acids research. — 2006. — Т 34, № 6. — С. 1692—1699.
25. Loytynoja A., Goldman N.Phylogeny-aware gap placement prevents errors in sequence alignment and evolutionary analysis // Science. — 2008. — Т 320, № 5883. —С. 1632—1635.
26. Notredame C., Higgins D. G., Heringa /.T-Coffee: A novel method for fast and accurate multiple sequence alignment // Journal of molecular biology. —
2000. — Т 302, № 1. — С. 205—217.
27. Saitou N., Nei M. The neighbor-joining method: a new method for reconstructing phylogenetic trees. // Molecular biology and evolution. — 1987. — Т 4, № 4. — С. 406—425.
28. Kumar S., Filipski A. Multiple sequence alignment: in pursuit of homologous DNA positions // Genome research. — 2007. — Т 17, № 2. — С. 127—135.
29. StatAlign: an extendable software package for joint Bayesian estimation of alignments and evolutionary trees / A. Novak [и др.] // Bioinformatics. —
2008. — Т 24, № 20. — С. 2403—2404.
30. Rapid and accurate large-scale coestimation of sequence alignments and phylogenetic trees / K. Liu [и др.] // Science. — 2009. — Т 324, № 5934. — С. 1561—1564.
31. Loytynoja A., Goldman N.Uniting alignments and trees // Science. — 2009. — Т 324, № 5934. — С. 1528—1529.
32. Needleman S. B., Wunsch C. D. A general method applicable to the search for similarities in the amino acid sequence of two proteins // Journal of molecular biology. — 1970. — Т 48, № 3. — С. 443—453.
33. Fletcher W, Yang Z. The effect of insertions, deletions, and alignment errors on the branch-site test of positive selection // Molecular biology and evolution. —
2010. — Т 27, № 10. — С. 2257—2267.
34. DIALIGN: finding local similarities by multiple sequence alignment. / B. Morgenstern [и др.] // Bioinformatics (Oxford, England). — 1998. — Т 14, №3. —С. 290—294.
35. Sympatric speciation in a bacterial endosymbiont results in two genomes with the functionality of one / J. T. Van Leuven [и др.] // Cell. — 2014. — Т 158, №6. — С. 1270—1280.
36. Lynch M. Evolution of the mutation rate // TRENDS in Genetics. — 2010. — Т 26, № 8. — С. 345—352.
37. Rates of spontaneous mutation / J. W. Drake [и др.] // Genetics. — 1998. — Т 148, № 4. — С. 1667—1686.
38. Evolutionary rates and gene dispensability associate with replication timing in the archaeon Sulfolobus islandicus / K. M. Flynn [и др.] // Genome biology and evolution. — 2010. — Т 2. — С. 859—869.
39. Hughes D. Evaluating genome dynamics: the constraints on rearrangements within bacterial genomes // Genome biology. — 2000. — Т. 1, № 6. — reviews0006—1.
40. Darling A. E., Miklos I., Ragan M. A. Dynamics of genome rearrangement in bacterial populations // PLoS genetics. — 2008. — Т. 4, № 7. — e1000128.
41. DNA motifs that sculpt the bacterial chromosome / F. Touzain [и др.] // Nature Reviews Microbiology. — 2011. — Т 9, № 1. — С. 15.
42. Wellenreuther M., Bernatchez L. Eco-evolutionary genomics of chromosomal inversions // Trends in ecology & evolution. — 2018. — Т 33, № 6. — С. 427— 440.
43. Long-term balancing selection on chromosomal variants associated with crypsis in a stick insect / D. Lindtke [и др.] // Molecular ecology. — 2017. — Т 26, № 22. — С. 6189—6205.
44. Genomic evidence for role of inversion 3 RP of Drosophila melanogaster in facilitating climate change adaptation / R. V Rane [и др.] // Molecular Ecology. — 2015. — Т 24, № 10. — С. 2423—2432.
45. Chromosomal rearrangements and the genetics of reproductive barriers in Mimulus (monkey flowers) / L. Fishman [и др.] // Evolution. — 2013. — Т. 67, № 9. — С. 2547—2560.
46. Lynch M., Walsh B. The origins of genome architecture. Т. 98. — Sinauer Associates Sunderland, MA, 2007.
47. Kapusta A., Suh A., Feschotte C. Dynamics of genome size evolution in birds and mammals // Proceedings of the National Academy of Sciences. — 2017. — Т 114, № 8. — E1460—E1469.
48. Comparative genomics reveals insights into avian genome evolution and adaptation / G. Zhang [и др.] // Science. — 2014. — Т 346, № 6215. — С. 1311—1320.
49. Phylogenomics of nonavian reptiles and the structure of the ancestral amniote genome / A. M. Shedlock [и др.] // Proceedings of the National Academy of Sciences. — 2007. — Т 104, № 8. — С. 2767—2772.
50. Ji Y., DeWoody J. A. Genomic landscape of long terminal repeat retrotransposons (LTR-RTs) and solo LTRs as shaped by ectopic recombination in chicken and zebra finch // Journal of molecular evolution. — 2016. — Т 82, №6. — С. 251—263.
51. Bennetzen J. L., Ma J., Devos K. M. Mechanisms of recent genome size variation in flowering plants // Annals of botany. — 2005. — Т 95, № 1. — С. 127—132.
52. Nam K., Ellegren H. Recombination drives vertebrate genome contraction // PLoS genetics. — 2012. — Т 8, № 5. — e1002680.
53. Gregory T. R. Is small indel bias a determinant of genome size? // TRENDS in Genetics. — 2003. — Т 19, № 9. — С. 485—488.
54. Sequence shortening in the rodent ancestor / S. Laurie [и др.] // Genome research. — 2012. — Т 22, № 3. — С. 478—485.
55. 8.2% of the human genome is constrained: variation in rates of turnover across functional element classes in the human lineage / C. M. Rands [и др.] // PLoS genetics. — 2014. — Т 10, № 7. — e1004525.
56. Conserved syntenic clusters of protein coding genes are missing in birds / P. V Lovell [и др.] // Genome biology. — 2014. — Т 15, № 12. — С. 565.