Общая характеристика работы
Актуальность темы
Интенсивность секвенирования полных геномов в настоящее время достигла индустриальных темпов. В 2001 году был секвенирован геном человека и в последующие годы геномы некоторых других млекопитающих: мыши, крысы, собаки, шимпанзе и оппосума. Огромный интерес существует к последовательностям геномов различных микроорганизмов как про- так и эукариот. Очевидно, что темпы секвенирования значительно опережают темпы экспериментального анализа геномов. Для анализа огромных баз данных биологических последовательностей ДНК, различных РНК и белков требуются значительные человеческие и вычислительные ресурсы. В связи с тем, что геномы эукариот имеют более сложную организацию, чем геномы прокариот, наши знания о функциях тех или иных локусов геномов эукариот являются менее полными. Процесс аннотации эукариотического генома всегда начинается с определения экзон-интронной структуры и функций кодирующих генов, что является ключом к последующему детальному исследованию структуры и функции белков. На следующем этапе аннотации выявляются альтернативные изоформы кодируемых мРНК и белков, регуляторные сигналы, положения однонуклеотидных полиморфизмов (SNP). На любом этапе процесс аннотации практически невозможен без применения специальных вычислительных средств. Для предсказания кодирующей части генов существует множество программ, которые могут быть разделены на два основных класса – это статистические программы, в основе которых лежат свойства самой геномной последовательности, и программы, использующие сходство с последовательностями известных белков, мРНК или ДНК, кодирующей гомологичные гены. Программы, распознающие гены по сходству, не могут обнаружить гены специфичные для нового генома, поэтому существует необходимость дополнительно использовать статистические программы. Существенным недостатком статистических программ является ненадежное предсказание границ генов, кроме того, они могут предсказывать только единственную изоформу. Одной из актуальных задач биоинформатики, связанных с аннотацией новых геномов является дальнейшее совершенствование программ предсказания генов.
Альтернативный сплайсинг является фундаментальным механизмом эволюции генов и лежит в основе разнообразия протеома – совокупности белков, кодируемых в геноме. По современным оценкам 50-70% генов млекопитающих являются альтернативно сплайсируемыми. Изучение альтернативного сплайсинга имеет большое практическое и клиническое значение, так как экспрессия различных изоформ белка зависит от ткани и стадии развития клетки. Мутации в районе сайтов сплайсинга и регуляторных сайтах могут вызывать наследственные или онкологические заболевания. Аннотация альтернативного сплайсинга является сложной задачей, для решения которой идет интенсивный поиск методов.
Цель и задачи исследования
Диссертация состоит из трех глав, в каждой из которых решаются различные, но связанные между собой задачи:
Целью исследования, представленного в первой главе, является разработка статистической программы предсказания кодирующих генов в геномах низших эукариот. При этом решались следующие задачи:
• Программа должна учитывать особенности сплайсинга, свойственного исследуемому организму.
• Математическая модель, лежащая в основе программы, должна позволять использовать широкий набор статистик, подбираемых исходя из специфики задачи, для кодирующих, некодирующих областей и сайтов сплайсинга.
• Программа должна быть интегрирована в комплекс с программами, использующими сходство с последовательностями известных белков, для эффективного решения задачи первичной аннотации генома.
Целью исследования, представленного во второй главе, является изучение альтернативно сплайсируемых областей генов человека. При этом решались следующие задачи:
• Выявление и классификация областей альтернативного сплайсинга на основании данных, полученных с помощью сплайсированного выравнивания маркеров экспрессии (случайных фрагментов мРНК) с геномом.
• Проверка гипотезы о независимости сплайсинга интронов в пре-мРНК.
Целью исследования, представленного в третьей главе, является изучение связи альтернативного сплайсинга и функции кодируемых белков. Для этого решались следующие задачи:
• Задача сборки EST – построение набора альтернативных изоформ мРНК, с высокой вероятностью, способных кодировать функциональные белки, на основании множества маркеров экспрессии.
• Изучение связи альтернативного сплайсинга и функций кодируемых белков.
• Выявление случаев альтернативного сплайсинга, являющихся результатом ошибок сплайсосомы.