ВВЕДЕНИЕ 3
1 Обзор литературы 5
1.1 Методы секвенирования транскриптома 5
1.1.1 Библиотека «поли-А» РНК 5
1.1.2 Секвенирование некодирующих РНК 6
1.1.3 Прямое секвенирование РНК 6
1.2 Сборка RNA-Seq данных 7
1.2.1 Особенности сборки транскриптома 7
1.2.2 Типы транскриптомных ассемблеров 8
1.2.3 Алгоритмические подходы 8
1.2.4 Trinity 9
1.2.5 Velvet-Oases 11
1.2.6 Trans-ABySS 12
1.2.7 Multiple-k 13
1.2.8 Сравнительная характеристика ассемблеров 13
1.3 Кластеризация данных 14
1.3.1 Методы кластеризации 15
1.3.2 Метод динамических ядер 16
1.3.3 Выбор меры расстояния 16
1.3.4 Методы визуализации данных 17
1.3.5 Программа ViDa Expert 18
2 Материалы и методы 19
2.1 Обработка и сборка данных секвенирования 19
2.2 Частотный словарь триплетов 20
3 Результаты и обсуждения 23
3.1 Результаты ассемблирования 23
3.2 Результаты кластеризации 25
3.2.1 Величина невязки 28
3.2.2 Результаты GenBank 31
3.3 Шестикластерная структура транскриптома 32
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 36
Достижения в области технологий секвенирования нового поколения (NGS) и разработки биоинформатического программного обеспечения сделали возможным расшифровку нуклеотидных последовательностей больших геномов. Стали реальными также секвенирование и анализ транскриптомов немодельных организмов.
Предметом нашего исследования стали хвойные растения, которые имеют отличные от модельных организмов признаки: медленный рост, огромный размер богатого повторяющимися последовательностями генома (в основном, в виде транспозонов и тандемных повторов) и удивительно высокая фенотипическая пластичность.
Целью настоящей работы стали de novoсборка транскриптома лиственницы сибирской (Larix sibirica Ledeb.) и проведение разведывательного кластерного анализа.
Для достижения данной цели, были поставлены следующие задачи:
- Провести предварительную обработку данных секвенирования;
- Осуществить de novoсборку транскриптома;
- Провести оценку качества сборки;
- Провести разведывательный кластерный анализ
Актуальность данной работы заключается в том, что хвойные леса занимают свыше 80% лесопокрытой площади России и имеют очень важные экологическое и экономическое значения. Они оказывают огромное влияние на экологию и климат, играют важную роль в поглощении углерода и предотвращении последствий глобального потепления климата. Изучение данных видов может помочь в разработке природоохранных мероприятий и решить вопросы, связанные с гибелью лесов вследствие незаконной рубки и воздействия различных вредителей и заболеваний. Помимо прочего, анализ транскриптома играет важную роль в изучении регуляции экспрессии генов и регуляторных механизмов клетки и организма в целом, что является одной из актуальных проблем современной биологии.
Для упрощения обработки такого большого объема данных используется кластерный анализ, который позволяет резко сокращать, сжимать большие массивы информации по целому набору признаков, делать их компактными и наглядными, не накладывая при этом никаких ограничений на вид рассматриваемых данных. Таким образом, дальнейшая обработка сводится к работе с интересуемыми исследователя кластерами по отдельности.
Результаты работы были представлены на следующих международных и Всероссийских конференциях:
- 53-я Международная научная студенческая конференция, г. Новосибирск;
- 54-я Международная научная студенческая конференция, г. Новосибирск;
- Седьмая Международная Школа молодых ученых «Системная биология и биоинформатика», г. Новосибирск;
- Международная конференция студентов, аспирантов и молодых ученых «Проспект Свободный-2015», г. Красноярск;
- Третья летняя школа по биоинформатике, г. Москва;
- 3-я Международная конференция «Генетика, геномика,биоинформатика и биотехнология растений», г. Новосибирск;
- The ProCoGen Final Open International Conference and Workshops on Promoting Conifer Genomic Resources, Orleans, France;
- 4-ое Международное совещание “Сохранение лесных генетических ресурсов Сибири”, г. Барнаул;
- IWBBIO-2016, Granada, Spain.
В ходе данной работы были выполнены все поставленные задачи, а именно:
- проведена предварительная обработка данных секвенирования, в результате которой было получено 5090255 высококачественных парноконцевых чтений транскриптома лиственницы сибирской с Q > 20 (вероятность ошибки секвенирования не более 1 %);
- впервые осуществлена de novoсборка транскриптома лиственницы сибирской, длина которого составила 26493048 п.о.;
- составлены и изучены методами динамических ядер и упругих карт частотные словари различных типов для транскриптомных данных;
- определены свойства кластеров для частотных словарей первого типа;
- получена 6-кластерная структура для частотных словарей второго- четвертого типов.
Таким образом, поставленная в бакалаврской работе цель полностью достигнута.