Тема: КЛАСТЕРНЫЙ АНАЛИЗ РЕЗУЛЬТАТОВ DE NOVOСБОРКИ ГЕНОМА ЛИСТВЕННИЦЫ СИБИРСКОЙ
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ОСНОВНАЯ ЧАСТЬ 5
1 Обзор литературы 5
1.1 Методы кластеризации и меры расстояний 5
1.2 Частотные словари 9
1.3 Визуализация данных 11
1.4 Метод BLAST (Basic Local Alignment Search Tool) 13
2 Материалы и методы 15
2.1 Характеристики сборки и получение выборок 15
2.2 Метод динамических ядер (k-means) 16
2.3 Второе обобщенное правило Чаргаффа и величина невязки 18
3 Результаты и обсуждение 19
3.1 Выборка самых длинных контигов 19
3.2 Выборка контигов, длиной 10000 п.н.о 22
3.3 Выборка контигов, длиной 3000 п.н.о 23
3.4 Выборка длин по среднему значению 25
3.5 Выборка наименьших длин 26
3.6 GC-контент выборок 28
ЗАКЛЮЧЕНИЕ 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32
📖 Введение
Очень часто алгоритмы обработки геномных данных не рассчитаны на такой большой объем информации и, как следствие, такие программы требуют огромных вычислительных мощностей, тратят большое количество времени на работу, либо не работают вовсе. В данной работе рассматривалось применение кластеризации как способ предобработки данных, который бы отчасти смог решить эти проблемы.
Кластеризация как метод несет в себе три функции [2]:
1. Понимание данных путем выявления кластерной структуры. Для каждого обнаруженного кластера можно применить особый метод анализа.
2. Сжатие данных. Дальнейшая работа только с интересующими нас кластерами позволит существенно снизить размерность данных. Также возможна работа только с характерными представителями каждого кластера.
3. Обнаружение ранее не изученных объектов и закономерностей. Нетипичные по своей структуре последовательности скорее всего не будут принадлежать ни к одному из кластеров, либо составлять отдельный малый кластер, заслуживающий специального изучения.
Все три пункта позволят упростить работу с геномными данными, особенно если эти данные велики и ранее не аннотированы.
Тема этой работы «Кластерный анализ результатов de novoсборки генома лиственницы сибирской».
Целью настоящей работы является поиск структурных групп контигов генома лиственницы сибирской на основе кластеризации.
Задачи проведенного исследования:
1. Выбрать подходящий для наших данных метод классификации и меру расстояния;
2. Освоить метод динамических ядер ( k -means), метод упругих карт;
3. Выявить структурно обособленные группы контигов генома лиственницы сибирской;
4. Проанализировать выявленные группы на предмет функциональной обособленности;
5. Визуализировать данные и результаты;
6. Оценить структуру используемой геномной сборки.
✅ Заключение
Геномная сборка лиственницы не однородна по структурному составу, встречаются последовательности, резко отличающиеся по частотам триплетов и GC-контенту. Возможное объяснение такой разнородности - примеси митохондриального генома и бактериальные контаминации. Необходимо продолжить анализ таких последовательностей.



