📄Работа №24813

Тема: КЛАСТЕРНЫЙ АНАЛИЗ РЕЗУЛЬТАТОВ DE NOVOСБОРКИ ГЕНОМА ЛИСТВЕННИЦЫ СИБИРСКОЙ

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Биология

📄

Объем: 33 листов

📅

Год: 2016

👁️

5600 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ 3
ОСНОВНАЯ ЧАСТЬ 5
1 Обзор литературы 5
1.1 Методы кластеризации и меры расстояний 5
1.2 Частотные словари 9
1.3 Визуализация данных 11
1.4 Метод BLAST (Basic Local Alignment Search Tool) 13
2 Материалы и методы 15
2.1 Характеристики сборки и получение выборок 15
2.2 Метод динамических ядер (k-means) 16
2.3 Второе обобщенное правило Чаргаффа и величина невязки 18
3 Результаты и обсуждение 19
3.1 Выборка самых длинных контигов 19
3.2 Выборка контигов, длиной 10000 п.н.о 22
3.3 Выборка контигов, длиной 3000 п.н.о 23
3.4 Выборка длин по среднему значению 25
3.5 Выборка наименьших длин 26
3.6 GC-контент выборок 28
ЗАКЛЮЧЕНИЕ 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32

📖 Введение

Существует достаточно большая группа организмов, работа с геномом которых весьма затруднительна. Например, хвойные, существенно отличающиеся от модельных растений. Геном хвойных обладает большой фенотипической пластичностью, богат повторяющимися нуклеотидными последовательностями и, как следствие, имеет большой размер - 12-30 Gb (миллиардов нуклеотидных оснований). По последним данным, геном хвойных может включать в себя до 82 % повторяющихся последовательностей [1].
Очень часто алгоритмы обработки геномных данных не рассчитаны на такой большой объем информации и, как следствие, такие программы требуют огромных вычислительных мощностей, тратят большое количество времени на работу, либо не работают вовсе. В данной работе рассматривалось применение кластеризации как способ предобработки данных, который бы отчасти смог решить эти проблемы.
Кластеризация как метод несет в себе три функции [2]:
1. Понимание данных путем выявления кластерной структуры. Для каждого обнаруженного кластера можно применить особый метод анализа.
2. Сжатие данных. Дальнейшая работа только с интересующими нас кластерами позволит существенно снизить размерность данных. Также возможна работа только с характерными представителями каждого кластера.
3. Обнаружение ранее не изученных объектов и закономерностей. Нетипичные по своей структуре последовательности скорее всего не будут принадлежать ни к одному из кластеров, либо составлять отдельный малый кластер, заслуживающий специального изучения.
Все три пункта позволят упростить работу с геномными данными, особенно если эти данные велики и ранее не аннотированы.
Тема этой работы «Кластерный анализ результатов de novoсборки генома лиственницы сибирской».
Целью настоящей работы является поиск структурных групп контигов генома лиственницы сибирской на основе кластеризации.
Задачи проведенного исследования:
1. Выбрать подходящий для наших данных метод классификации и меру расстояния;
2. Освоить метод динамических ядер ( k -means), метод упругих карт;
3. Выявить структурно обособленные группы контигов генома лиственницы сибирской;
4. Проанализировать выявленные группы на предмет функциональной обособленности;
5. Визуализировать данные и результаты;
6. Оценить структуру используемой геномной сборки.

✅ Заключение

В данной работе показано, что кластеризация методом динамических ядер позволяет разделить последовательности генома на структурно различные группы. Подтверждено снижение чувствительности частотных словарей по мере уменьшения длин последовательностей, составляющих выборку.
Геномная сборка лиственницы не однородна по структурному составу, встречаются последовательности, резко отличающиеся по частотам триплетов и GC-контенту. Возможное объяснение такой разнородности - примеси митохондриального генома и бактериальные контаминации. Необходимо продолжить анализ таких последовательностей.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Nystedt B, Street NR, Wetterbom A et al. The Norway spruce genome sequence and conifer genome evolution // Nature. - 2013. - 497(7451);
2. Мандель, И.Д. Кластерный анализ / Финансы и статистика. - Москва, 1988. - С. 10;
3. Воронцов, К.В. Алгоритмы кластеризации // Лекции по алгоритмам кластеризации и многомерного шкалирования. - 2007. - С. 2;
4. Бериков, В.Б., Лбов, Г.С. Современные тенденции в кластерном анализе // Информационно-телекоммуникационные системы. - 2008. - С. 6-9;
5. Ichino M., Yaguchi H. Generalized Minkowski Metrics for Mixed Feature-Type Data Analysis // Advances in Data Science and Classification. - 1994. - Pp. 698-708;
6. Deza E., Deza M.M.. Encyclopedia of Distances / Springer-Verlag Berlin Heidelberg, 2009. - Pp. 583;
7. Sims GE, Jun S-R, Wu GA, Kim S-H. Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions // Proceedings of the National Academy of Sciences of the United States of America.
- 2009. - 106(8). Pp. - 2677-2682;
8. Vinga S, Almeida J. Alignment-free sequence comparison—a review // Bioinformatics. - 2003. - 19(4). Pp. - 513-523;
9. Sadovsky, M.G., Birukov, V.V., Putintseva, Y.A., Oreshkova, N.V., Vaganov, E.A. and Krutovsky, K.V. Symmetry of Siberian Larch Transcriptome // Journal of Siberian Federal University: Biology. - 8(3). - Pp. 278-286.
10. Зиновьев, А.Ю. Визуализация многомерных данных / Изд. КГТУ. - Красноярск. - 2000. С. - 180.
11. Gorban A, Pitenko A, Zinovyev A. ViDaExpert: user-friendly tool for nonlinear visualization and analysis of multidimensional vectorial data // arXiv:1406.5550v2. - 2014. P. - 9.
12. ViDaExpert - is a software for multidimensional vectorial data visualizationhttp://bioinfo-out.curie.fr/projects/vidaexpert/;
13. Altschul S., Gish W., Miller W., Myers E., and Lipman D. Basic local alignment search tool // Journal of Molecular Biology. - 1990. - 215(3);
14. Madden TL, McGinnis S. Blast: at the core of a powerful and diverse set of sequence analysis tools // Nucleic Acids Res. - 2004;
15. Котов А., Красильников Н. Кластеризация данных [Электронный ресурс]. - 2006. С. - 16;
16. Нейский И.М. Классификация и сравнение методов кластеризации // Интеллектуальные технологии и системы. Сборник учебно¬методических работ и статей аспирантов и студентов. - М. - 2006. - С. 130¬142;
17. Telgarsky M., Vattani A. Hartigan's Method: k-means Clustering without Voronoi // Journal of Machine Learning Research. - 2010. P. - 9;
18. Hartigan JA. Algorithm AS 136: A K-Means Clustering Algorithm // Journal of the Royal Statistical Society. - 1979. - 28(1). Pp. - 100-108;
19. Гребнев, Я. В., Садовский, М. Г. Второе правило Чаргаффа и симметрия геномов // Фундаментальные исследования. - 2014. №12-5. C. - 4.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211155)

Статьи

»» Все статьи

Вход в личный кабинет