Тип работы:
Предмет:
Язык работы:


Разработка алгоритма биоинформатического анализа идентификации патогенных микроорганизмов

Работа №128480

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы33
Год сдачи2018
Стоимость5500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
14
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 7
Глава 1. Глубинный анализ данных 10
Глава 2. Сбор данных 11
2.1. Необходимые данные 11
2.2. NCBI 11
2.3. Автоматизация сбора данных 12
Глава 3. Подготовка данных 14
3.1. Построение обучающих множеств 14
3.2. Извлечение признаков 14
Глава 4. Модель анализа данных 16
4.1. Случайный лес 16
Глава 5. Подбор параметров модели 18
5.1. Параметры модели 18
5.2. Критерии качества 19
5.3. Сравнение моделей извлечения признаков 20
Глава 6. Реализация системы 21
6.1. Выбор инструментов реализации 21
6.2. Реализация 22
Глава 6. Результаты 26
Выводы 28
Заключение 29
Список литературы 31


Некультивируемое состояние обнаружено у многих патогенных видов микроорганизмов. В связи с тем, что рутинные бактериологические методы неприменимы для обнаружения некультивируемых форм, развитию таких методик как анализ на основе секвенирования по методу дробовика следует уделить значительное внимание. Подобный метод позволит в кратчайшие сроки определять наличие возбудителей особо опасных инфекций и, таким образом, значительно ускорять процесс принятия решений о мерах противодействия возможным эпидемиям.
Методы NGS - методы секвенирования нового поколения являются высокопроизводительными методами определения нуклеотидных последовательностей. Наиболее распространённой технологией NGS является Illumina [1], позволяющая извлекать из подготовленного образца за один запуск продолжительностью до 30 часов около 400 млн генетических последовательностей длиной до 600 символов.
В связи с всеобъемлемостью присущей подобного рода исследованию требуется разработка систем, осуществляющих применение методов классификации, способных обеспечить проведение точного, полного и эффективного по времени определения таксономической принадлежности получаемых последовательностей.
Из известных и важных применений указанного анализа можно заметить отделение личных данных о генетике исследуемого человека, представляющих значительный объём данных результатов секвенирования образцов, что влечет также ускорение последующих этапов анализа. Разделение по таксономической принадлежности позволяет повысить скорость, специфичность и точность работы таких инструментов анализа биологических данных как программы сборки (объединения в более крупные последовательности по пересечениям) и аннотации (разметки участков нуклеотидных последовательностей по функциональным проявлениям) геномных данных.
Для решения данной задачи классификации применяются методы, основанные на прямых сравнениях (BLAST [2], BWA [3]), но, учитывая количество нуклеотидных последовательностей получаемых из образцов, содержащих смеси организмов, подобного рода анализ может занять непозволительно большое количество времени.
Другим подходом является анализ последовательностей на основе количественных характеристик строк. Методы, применяющие данный подход, способны быстро производить оценку принадлежности к биологическим группам. [4]
Целью данной работы является разработка алгоритма анализа, позволяющего в кратчайшие сроки определять таксономическую принадлежность строк представляющих биологические последовательности.
Предполагается применение методов, основанных на анализе количественных характеристик строк с применением технологий машинного обучения с учителем. [5]
Машинное обучение позволяет ускорять разработку стратегии анализа, производя определение скрытых правил на основе ряда статистических экспериментов. [6]

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В процессе проведенной работы получены следующие результаты:
1. Разработан алгоритм биоинформатического анализа идентификации патогенных микроорганизмов.
2. Проведено исследование методов подготовки данных и моделей анализа данных на основе машинного обучения с целью выбора математических, статистических и программных инструментов, необходимых для эффективной реализации разработанного алгоритма.
3. Разработана система определения таксономической принадлежности биологических последовательностей патогенных вирусов и бактерий.
Создание и реализация в результате проведенной работы быстрого алгоритма биоинформатического анализа идентификации патогенных микроорганизмов, включающего в себя методы прикладной математики, статистики и информатики, открывает возможность полномасштабных исследований распространения и мутагенеза опасных для человека микроорганизмов с целью выявления и предотвращения массовых инфекционных заболеваний, что в современных условиях существования общества имеет особенно важное значение.
Выбор и применение интенсивных вычислительных методов на основе выявления общих закономерностей по известным данным, таких, как методы машинного обучения, имеют определяющее значение для достижения цели решения практических задач, возникающих при обработке обширных объемов данных биологических исследований, необходимых для выявления опасных микроорганизмов с целью предотвращения эпидемий. Совершенствование вычислительных методов, баз данных и алгоритмов решения задач анализа биологических данных - это актуальная в настоящее время задача, стоящая перед современной генетикой, эволюционной биологией, вычислительной биологией и другими информационно-ёмкими отраслями фундаментальной биологии.
Выбор иерархической структуры системы классификаторов позволяет проводить точные исследования таксономического состава биологических образцов. Также подобная структура позволяет легко дополнять базу эталонных последовательностей, производя переобучение лишь малого числа элементов системы, находящихся в той ветви таксономического дерева, в которой находятся идентификаторы добавляемых последовательностей.
Разработанный алгоритм идентификации патогенных агентов может применяться как элемент программного конвейера - управляемой последовательности запуска программ-модулей для предоставления информации об оценке таксономической принадлежности с целью ускорения работы и повышения специфичности анализа проводимого другими инструментами биоинформатического анализа.
Разработка системы классификации биологических
последовательностей, проведенная в представленной работе с использованием методов машинного обучения, применяющих знания из классических математических дисциплин, методов оптимизации и математической статистики, позволяет быстро и точно производить обработку баз данных биологических исследований с целью обнаружения в кратчайшие сроки возбудителей особо опасных инфекций и, таким образом, значительно ускорять процесс принятия решений о мерах противодействия возможным эпидемиям. Кроме этого, разработанная система классификации может быть предложена для проведения научных исследований современной фундаментальной биологии.



1. History of Illumina Sequencing. https://www.illumina.com/science/ technology/next-generation-sequencing/illumina-sequencing-history.html.
2. Lavenier, D. PLAST: parallel local alignment search tool for database comparison. BMC Bioinformatics, 2009. 329 p.
3. Li H., Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler Transform // Bioinformatics, 2010. Vol. 26. P. 589-595.
4. Rebecca R., Bede C., Avraam T., David L. R., Mattia P. Challenges in the analysis of viral metagenomes // Virus Evolution, 2016. Vol. 2. Issue 2. P. 427-439.
5. Yu N.; Yu Z. et al. A Comprehensive Review of Emerging Computational Methods for Gene Identification // Journal of Information Processing Systems, 2016. Vol. 12. Issue 1. P. 1-34.
6. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer-Verlag, 2009. 746 p.
7. Smith T. F., Waterman M. S. Identification of Common Molecular Subsequences // Journal of Molecular Biology, 1981. 147. P. 195-197.
8. Federhen S. The NCBI Taxonomy Database // Nucleic Acids Research 2012, Vol. 40. P. 136-143.
9. Pennisi E. Modernizing the tree of life // Science, 2003. 300. P. 1692-1697.
10. Ghosh T. S., Gajjalla P., Mohammed M. H., Mande S. S. A Hidden Markov Model based algorithm for taxonomic classification of 16S rRNA gene sequences // Genomics, 2012. Vol. 99 P. 195-201.
11. Yang B. S., Di X., Han T. Random forests classifier for machine fault diagnosis // Journal of Mechanical Science and Technology, 2008. 22 (9) P. 1716-1725.
12. Sheik M. A., Niranjan J., George B., Vanajakshi L. Application of random forest algorithm to classify vehicles detected by a multiple inductive loop system // 15th International IEEE Conference on Intelligent Transportation Systems, 2012. P. 491-495.
13. Chile P. Progress in Pattern Recognition, Image Analysis, Computer Vision. CIARP, 2011. 572 p.
14. Kumar S., Krishnani K. K., Bhushan B., Brahmane M. P. Metagenomics: Retrospect and Prospects in High Throughput Age // Biotechnology Research International, 2015. P. 121-133.
15. Чубукова И. А. Data Mining: учебное пособие. М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. 382 с.
... Всего источников – 30.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ