В генетике существует три точки зрения на понятие ДНК. С биологической точки зрения ДНК представляет собой макромолекулу, обеспечивающую хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов. С химической точки зрения ДНК — это длинная полимерная молекула, состоящая из повторяющихся блоков — нуклеотидов. Каждый нуклеотид состоит из азотистого основания, сахара (дезоксирибозы) и фосфатной группы. В ДНК встречается четыре вида азотистых оснований (аденин, гуанин, тимин и цитозин). Азотистые основания одной из цепей соединены с азотистыми основаниями другой цепи водородными связями согласно принципу комплементарности: аденин соединяется только с тимином, гуанин — только с цитозином. С точки зрения математика ДНК суть последовательность нуклеотидов, представленных в виде символьной последовательности. Символы представляют азотистые основания одной из цепей.
Задач, связанных с символьными последовательностями, можно придумать очень много, например, выделение упорядоченности, подсчет статистики различных комбинаций символов, и т.п. Тем не менее, в этой работе будет освещено в частном порядке именно анализ ДНК. Какую бы задачу мы ни решали в связи с анализом ДНК, в конечном итоге она почти наверняка сводится к изучению частотного словаря. Носитель частотного словаря - это все символьные последовательности определенного количества символов; в данной работе назовем их словами. Если каждому такому слову сопоставить натуральное число его копий включая нуль, получится конечный словарь. А если число копий заменить на частоту их появления, то есть число копий данного слова, деленное на сумму чисел копий всех слов, то получится частотный словарь. Рано или поздно наверняка какие-то достаточно длинные слова из носителя пропадут, то есть число копий слов будет равно нулю. Назовем их «потерянными» словами.
Целью данной работы было выявить связи вышеназванных «потерянных» слов с таксономией, то есть положением в живом мире, и другими биологическими показателями. Предмет исследования включает в себя списки «потерянных» слов и их свойства: насколько состав списков связан с конкретными организмами (или группой организмов) и насколько он связан со специфическими (короткими) последовательностями, играющими важную регуляторную роль. Объектом являются комбинаторные и статистические свойства таких «потерянных» слов. То есть рассматривается состав слов, «потерянных» определенными последовательностями, и их таксономия.
Задачами магистерской работы были:
- написание программы, вычисляющую список «потерянных» слов,
- подбор релевантного генетического материала (геномы подходящих организмов),
- обработка этого материала, анализ полученных списков слов (их подобие у разных организмов, связь с GC-контентом и прочее) и выявление связи установленных списков потерянных слов с таксономией носителей соответствующих последовательностей.