В генетике существует три точки зрения на понятие ДНК. С биологической точки зрения ДНК представляет собой макромолекулу, обеспечивающую хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов. С химической точки зрения ДНК — это длинная полимерная молекула, состоящая из повторяющихся блоков — нуклеотидов. Каждый нуклеотид состоит из азотистого основания, сахара (дезоксирибозы) и фосфатной группы. В ДНК встречается четыре вида азотистых оснований (аденин, гуанин, тимин и цитозин). Азотистые основания одной из цепей соединены с азотистыми основаниями другой цепи водородными связями согласно принципу комплементарности: аденин соединяется только с тимином, гуанин — только с цитозином. С точки зрения математика ДНК суть последовательность нуклеотидов, представленных в виде символьной последовательности. Символы представляют азотистые основания одной из цепей.
Задач, связанных с символьными последовательностями, можно придумать очень много, например, выделение упорядоченности, подсчет статистики различных комбинаций символов, и т.п. Тем не менее, в этой работе будет освещено в частном порядке именно анализ ДНК. Какую бы задачу мы ни решали в связи с анализом ДНК, в конечном итоге она почти наверняка сводится к изучению частотного словаря. Носитель частотного словаря - это все символьные последовательности определенного количества символов; в данной работе назовем их словами. Если каждому такому слову сопоставить натуральное число его копий включая нуль, получится конечный словарь. А если число копий заменить на частоту их появления, то есть число копий данного слова, деленное на сумму чисел копий всех слов, то получится частотный словарь. Рано или поздно наверняка какие-то достаточно длинные слова из носителя пропадут, то есть число копий слов будет равно нулю. Назовем их «потерянными» словами.
Целью данной работы было выявить связи вышеназванных «потерянных» слов с таксономией, то есть положением в живом мире, и другими биологическими показателями. Предмет исследования включает в себя списки «потерянных» слов и их свойства: насколько состав списков связан с конкретными организмами (или группой организмов) и насколько он связан со специфическими (короткими) последовательностями, играющими важную регуляторную роль. Объектом являются комбинаторные и статистические свойства таких «потерянных» слов. То есть рассматривается состав слов, «потерянных» определенными последовательностями, и их таксономия.
Задачами магистерской работы были:
- написание программы, вычисляющую список «потерянных» слов,
- подбор релевантного генетического материала (геномы подходящих организмов),
- обработка этого материала, анализ полученных списков слов (их подобие у разных организмов, связь с GC-контентом и прочее) и выявление связи установленных списков потерянных слов с таксономией носителей соответствующих последовательностей.
1. Кутыркин, В.А. Распознавание скрытой периодичности в последовательностях ДНК / В.А. Кутыркин, М.Б. Чалей // Математическая биология и биоинформатика. - 2013. - Т. 8, № 2. - С. 502-512.
2. Мирошниченко, Л.А. Программа «SIM_PAT» для поиска фракталоподобных структур в ДНК-последовательностях / Л.А.Мирошниченко, В.Д. Гусев // Хроники объединенного фонда электронных ресурсов наука и образование - 2014. - № 1 (56). - С. 62.
3. Спангенберг, В.Е. Повторяющиеся последовательности ДНК могут принимать участие в формировании синаптонемных комплексов / В.Е. Спангенберг, С.Я. Дадашев, О.Л. Коломиец, Ю.Ф. Богданов // Цитология. - М., 2011. - Т. 53, № 3. - С. 235-241.
4. Rawat, A. Novel implementation of conditional co-regulation by graph theory
to derive co-expressed genes from microarray data / A. Rawat, Y. Deng // BioMed Central Bioinformatics. - Oklahoma City, OK, USA, 2008.
5. Hao, B. Avoided strings in bacterial complete genomes and a related combinatorial problem / B. Hao, H. Xie, Z. Yu, G. Chen // Annals of combinatorics. - 1998(2000). - #4 - P. 247-255.
6. Sadovsky, M. Lost Strings in Genomes: What Sense Do They Make? / M. Sadovsky et al. // Strong Inhomogeneity in Triplet Distribution. - P. 20-29.
7. Сайт рестрикции бактерии Acetobacter pasteurianus [Электронный ресурс] -
режим доступа:
http://www.skygen.com/catalog/biohimicheskie_reaktivy/new_england_biolabs/endo nukleazy_restriktsii/standartnye_restriktazy/apali/