Тип работы:
Предмет:
Язык работы:


Задачи анализа спектров тандемной масс-спектрометрии

Работа №125425

Тип работы

Дипломные работы, ВКР

Предмет

математическое моделирование

Объем работы35
Год сдачи2017
Стоимость4850 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
63
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Определения и постановка задачи 5
1.1. Базовые определения масс-спектрометрии 5
1.2. Дерепликатор и его алгоритм фильтрации пиков 6
1.3. Об идентификации пептидов 8
1.3.1. Описание процедуры и модель ожидаемого спектра 8
1.3.2. Варианты ускорения процедуры идентификации 9
Глава 2. Исследование методов фильтрации масс-спектров 11
2.1. Алгоритм PROcess 11
2.2. Алгоритм MassSpecWavelet 12
2.3. Алгоритм msConvert из библиотеки ProteoWizard 17
2.3.1. Вычислительные эксперименты 18
Глава 3. Результаты кластеризации масс-спектров 20
3.1. Кластеризация ожидаемых масс-спектров 20
3.1.1. Об оценке близости пептидов как строк 20
3.1.2. О векторном вложении масс-спектров 23
3.1.3. О расстояниях между масс-спектрами 23
3.1.4. Об алгоритме кластеризации 28
3.1.5. Описание эксперимента с реальными данными 30
Заключение 34
Список литературы 35

Масс-спектрометрия — это техника, которую используют для определения химиче­ского состава веществ. Для исследуемого вещества метод строит масс-спектр — сигнал, который представляет собой зависимость интенсивности (количества) ионов от отноше­ния массы к заряду иона.
Ввиду особенностей метода ионизации, взвешивания молекул, специфики прибора и самого вещества, получаемые масс-спектры вообще говоря зашумлены. Это влияет на результаты дальнейшего анализа, например, в методах идентификации вещества нали­чие шумовых пиков приводит к большому количеству ложных сопоставлений пептидам.
Так как масс-спектры активно используются во многих областях знаний, существу­ет большое количество методов для удаления шума и других артефактов из масс-спек­тра.
Текущая процедура фильтрации пиков в Дерепликаторе [1] имеет ряд недостатков, самый важный из которых заключается в том, что в полученном спектре появляются новые пики.
Первая задача данной работы — исследовать существующие методы фильтрации пиков и выбрать наиболее подходящий из них или предложить модификацию для ин­тегрирования в Дерепликатор.
Вторая задача связана с идентификацией пептидов. Существуют методы, которые решают задачу определения химической формулы пептида по масс-спектру, один из них использует базу данных пептидов. Для каждого пептида в базе данных специальным образом строится ожидаемый спектр, затем каждый спектр сравнивается с масс-спек­тром, для которого требуется узнать формулу пептида.
Если эмпирических масс-спектров много, то наивный алгоритм, требующий пере­бор всех пептидов из базы данных, работает достаточно медленно, но процедуру можно ускорить, кластеризовав или ожидаемые спектры, или эмпирические.
Таким образом, вторая задача данной работы — научиться кластеризовать эти спектры, подобрав подходящее векторное представление и меру близости между ними.
Далее кратко описан состав работы.
В главе 1 изложены базовые определения масс-спектрометрии и сформулирова­ны задачи дипломной работы. В главе 2 помещены результаты исследования методов фильтрации пиков в масс-спектрах, их алгоритмы и сравнение.
Глава 3 содержит результаты, связанные с кластеризацией ожидаемых спектров. В ней описаны выбор оптимального векторного представления спектров, предложены варианты расстояния между спектрами и представлены результаты вычислительного эксперимента на реальных данных.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Масс-спектрометрия — широко используемый инструмент определения химическо­го состава веществ. В этой работе были рассмотрены две задачи, связанные с анализом масс-спектров.
Первая задача связана с фильтрацией пиков в масс-спектрах. Исходно масс-спек­тры зашумлены и могут включать тренд, это влияет на результаты дальнейшей обра­ботки. Текущая фильтрация пиков в Дерепликаторе имеет ряд недостатков, поэтому были исследованы актуальные методы фильтрации пиков PROcess и MassSpecWavelet из пакета Bioconductor в R. Оба алгоритма оценивают некоторым образом отношение сигнала к шуму (SNR) в каждой точке спектра, а затем отбираются те пики, для ко­торых SNR больше некоторого порога. Основное отличие этих двух алгоритмов в том, что в PROcess существуют отдельные шаги для извлечения оценок шума и тренда, а в MassSpecWavelet в виду особенностей использования непрерывного вейвлет-преобразо- вания это не требуется.
В качестве альтернативы отбора пиков в Дерепликаторе был выбран MassSpec- Wavelet, но его алгоритм неявно предполагает, что m/z в спектре равноотстоящие. В ProteoWizard реализована модификация MassSpecWavelet, которую можно применять для не равноотстоящих m/z, однако она нуждалась в доработке — чтобы правильно обрабатывались спектры небольшой длины, все относительные параметры были переве­дены в абсолютные. Измененная реализация была протестистирована на масс-спектрах с известными пептидами, чтобы убедиться в корректности.
Вторая задача относится к ускорению процедуры идентификации пептидов. Су­ществуют методы, позволяющие определить химическую формулу пептида по его масс- спектру, один из них использует для этих целей базу данных пептидов. Чтобы ускорить поиск подходящего пептида в базе данных, а точнее ожидаемого спектра, который стро­ится по каждому пептиду из базу данных, предложено кластеризовать эмпирические масс-спектры, для которых необходимо узнать пептид, и ожидаемые спектры.
Задача кластеризации первых намного сложнее ввиду зашумленности спектров и ряда других причин, поэтому в работе исследовались ожидаемые спектры. В качестве оптимального векторного вложения ожидаемых спектров было выбрано представление в виде гистограммы, а для кластеризации выбран алгоритм иерархической кластери­зации с динамическим обрезанием дерева. На реальных данных были протестированы три варианта расстояний между спектрами, и два из них — синусное расстояние (SIN) и Quadratic-Chi Histogram Distance (QC) — показали подходящие результаты. Использова­ние расстояния SIN имеет ряд преимуществ перед QC. Оно вычисляется гарантировано за линейное время, и максимальная ширина гистораммы, при которой использование расстояние SIN приводит к приемлемому качеству кластеризации, больше, чем для QC, что позволяет экономнее использовать память для представления спектров.


1. Mohimani H., Gurevich A. et al. Dereplication of Peptidic Natural Products Through Database Search of Mass Spectra // Nature Chemical Biology. — 2016. — Vol. 13, no. 1. — P. 30-37.
2. Yang C., He Z., Yu W. Comparison of public peak detection algorithms for MALDI mass spectrometry data analysis // BMC Bioinformatics. — 2009. — Vol. 10. — P. 4-16.
3. Li X. — PROcess: Ciphergen SELDI-TOF Processing, 2005. — R package version 1.48.0.
4. Du P., Kibbe W. A., Lin S. M. Improved peak detection in mass spectrum by incorporating continuous wavelet transform-based pattern matching // Bioinformatics. — 2006. — Vol. 22, no. 17. — P. 2059-2065.
5. French W. R., Zimmerman L. J. et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert // Journal of Proteome Research. — 2015. — Vol. 14, no. 2. — P. 1299-1307.
6. Henikoff J. G., Henikoff S. Amino acid substitution matrices from protein blocks // Proceedings of the National Academy of Sciences of the United States of America. — 1992. — Vol. 89, no. 22. — P. 10915-10919.
7. Rubner Y., Tomasi C., Guibas L. J. The Earth Mover’s Distance as a Metric for Image Retrieval // International Journal of Computer Vision. — 2000. — Vol. 40, no. 2. — P. 99-121.
8. Pele O., Werman M. A Linear Time Histogram Metric for Improved SIFT Matching // Computer Vision - ECCV 2008: 10th European Conference on Computer Vision, Marseille, France, October 12-18, 2008, Proceedings, Part III.— Springer Berlin Heidelberg, 2008. — P. 495-508.
9. Pele O., Werman M. Fast and robust Earth Mover’s Distances // 2009 IEEE 12th International Conference on Computer Vision. — 2009. — P. 460-467.
10. Pele O., Werman M. The Quadratic-Chi Histogram Distance Family // ECCV.— 2010. — P. 749-762.
11. Langfelder P., Zhang B., Horvath S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R // Bioinformatics. — 2008. — Vol. 24, no. 5. — P. 719-720.
12. Park H. S., Jun C. H. A simple and fast algorithm for K-medoids clustering // Expert Systems with Applications. — 2009. — Vol. 36, no. 2. — P. 3336-3341.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ