📄Работа №125425

Тема: Задачи анализа спектров тандемной масс-спектрометрии

Характеристики работы

Тип работы Дипломные работы, ВКР
Математическое моделирование
Предмет Математическое моделирование
📄
Объем: 35 листов
📅
Год: 2017
👁️
Просмотров: 144
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 4
Глава 1. Определения и постановка задачи 5
1.1. Базовые определения масс-спектрометрии 5
1.2. Дерепликатор и его алгоритм фильтрации пиков 6
1.3. Об идентификации пептидов 8
1.3.1. Описание процедуры и модель ожидаемого спектра 8
1.3.2. Варианты ускорения процедуры идентификации 9
Глава 2. Исследование методов фильтрации масс-спектров 11
2.1. Алгоритм PROcess 11
2.2. Алгоритм MassSpecWavelet 12
2.3. Алгоритм msConvert из библиотеки ProteoWizard 17
2.3.1. Вычислительные эксперименты 18
Глава 3. Результаты кластеризации масс-спектров 20
3.1. Кластеризация ожидаемых масс-спектров 20
3.1.1. Об оценке близости пептидов как строк 20
3.1.2. О векторном вложении масс-спектров 23
3.1.3. О расстояниях между масс-спектрами 23
3.1.4. Об алгоритме кластеризации 28
3.1.5. Описание эксперимента с реальными данными 30
Заключение 34
Список литературы 35

📖 Аннотация

Работа посвящена решению двух ключевых задач анализа спектров тандемной масс-спектрометрии: фильтрации шумовых пиков и ускорению идентификации пептидов. Актуальность исследования обусловлена тем, что зашумленность эмпирических масс-спектров приводит к ошибкам при идентификации веществ, а существующие алгоритмы предобработки, такие как используемый в Дерепликаторе, могут порождать артефакты. В рамках методологии проведен сравнительный анализ алгоритмов фильтрации PROcess и MassSpecWavelet, в результате которого для интеграции в Дерепликатор выбран и модифицирован алгоритм MassSpecWavelet из библиотеки ProteoWizard; модификация обеспечила корректную обработку спектров с неравноотстоящими m/z и малой длиной. Для ускорения поиска в базе данных пептидов исследована кластеризация ожидаемых спектров, где оптимальным признано гистограммное векторное представление в сочетании с иерархической кластеризацией и динамическим обрезанием дерева; тестирование на реальных данных показало эффективность синусного расстояния (SIN) и Quadratic-Chi Histogram Distance (QC) в качестве мер близости. Практическая значимость результатов заключается в их непосредственном применении для улучшения программного конвейера Дерепликатор, что повысит точность и скорость анализа в протеомике и при поиске новых природных соединений. Проведенный анализ научной литературы позволил обосновать выбор методов и направлений модификации. Таким образом, реализованные решения позволяют минимизировать артефакты фильтрации и существенно ускорить процедуру идентификации пептидов за счет эффективной кластеризации эталонных спектров.

📖 Введение

Масс-спектрометрия — это техника, которую используют для определения химиче­ского состава веществ. Для исследуемого вещества метод строит масс-спектр — сигнал, который представляет собой зависимость интенсивности (количества) ионов от отноше­ния массы к заряду иона.
Ввиду особенностей метода ионизации, взвешивания молекул, специфики прибора и самого вещества, получаемые масс-спектры вообще говоря зашумлены. Это влияет на результаты дальнейшего анализа, например, в методах идентификации вещества нали­чие шумовых пиков приводит к большому количеству ложных сопоставлений пептидам.
Так как масс-спектры активно используются во многих областях знаний, существу­ет большое количество методов для удаления шума и других артефактов из масс-спек­тра.
Текущая процедура фильтрации пиков в Дерепликаторе [1] имеет ряд недостатков, самый важный из которых заключается в том, что в полученном спектре появляются новые пики.
Первая задача данной работы — исследовать существующие методы фильтрации пиков и выбрать наиболее подходящий из них или предложить модификацию для ин­тегрирования в Дерепликатор.
Вторая задача связана с идентификацией пептидов. Существуют методы, которые решают задачу определения химической формулы пептида по масс-спектру, один из них использует базу данных пептидов. Для каждого пептида в базе данных специальным образом строится ожидаемый спектр, затем каждый спектр сравнивается с масс-спек­тром, для которого требуется узнать формулу пептида.
Если эмпирических масс-спектров много, то наивный алгоритм, требующий пере­бор всех пептидов из базы данных, работает достаточно медленно, но процедуру можно ускорить, кластеризовав или ожидаемые спектры, или эмпирические.
Таким образом, вторая задача данной работы — научиться кластеризовать эти спектры, подобрав подходящее векторное представление и меру близости между ними.
Далее кратко описан состав работы.
В главе 1 изложены базовые определения масс-спектрометрии и сформулирова­ны задачи дипломной работы. В главе 2 помещены результаты исследования методов фильтрации пиков в масс-спектрах, их алгоритмы и сравнение.
Глава 3 содержит результаты, связанные с кластеризацией ожидаемых спектров. В ней описаны выбор оптимального векторного представления спектров, предложены варианты расстояния между спектрами и представлены результаты вычислительного эксперимента на реальных данных.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Масс-спектрометрия — широко используемый инструмент определения химическо­го состава веществ. В этой работе были рассмотрены две задачи, связанные с анализом масс-спектров.
Первая задача связана с фильтрацией пиков в масс-спектрах. Исходно масс-спек­тры зашумлены и могут включать тренд, это влияет на результаты дальнейшей обра­ботки. Текущая фильтрация пиков в Дерепликаторе имеет ряд недостатков, поэтому были исследованы актуальные методы фильтрации пиков PROcess и MassSpecWavelet из пакета Bioconductor в R. Оба алгоритма оценивают некоторым образом отношение сигнала к шуму (SNR) в каждой точке спектра, а затем отбираются те пики, для ко­торых SNR больше некоторого порога. Основное отличие этих двух алгоритмов в том, что в PROcess существуют отдельные шаги для извлечения оценок шума и тренда, а в MassSpecWavelet в виду особенностей использования непрерывного вейвлет-преобразо- вания это не требуется.
В качестве альтернативы отбора пиков в Дерепликаторе был выбран MassSpec- Wavelet, но его алгоритм неявно предполагает, что m/z в спектре равноотстоящие. В ProteoWizard реализована модификация MassSpecWavelet, которую можно применять для не равноотстоящих m/z, однако она нуждалась в доработке — чтобы правильно обрабатывались спектры небольшой длины, все относительные параметры были переве­дены в абсолютные. Измененная реализация была протестистирована на масс-спектрах с известными пептидами, чтобы убедиться в корректности.
Вторая задача относится к ускорению процедуры идентификации пептидов. Су­ществуют методы, позволяющие определить химическую формулу пептида по его масс- спектру, один из них использует для этих целей базу данных пептидов. Чтобы ускорить поиск подходящего пептида в базе данных, а точнее ожидаемого спектра, который стро­ится по каждому пептиду из базу данных, предложено кластеризовать эмпирические масс-спектры, для которых необходимо узнать пептид, и ожидаемые спектры.
Задача кластеризации первых намного сложнее ввиду зашумленности спектров и ряда других причин, поэтому в работе исследовались ожидаемые спектры. В качестве оптимального векторного вложения ожидаемых спектров было выбрано представление в виде гистограммы, а для кластеризации выбран алгоритм иерархической кластери­зации с динамическим обрезанием дерева. На реальных данных были протестированы три варианта расстояний между спектрами, и два из них — синусное расстояние (SIN) и Quadratic-Chi Histogram Distance (QC) — показали подходящие результаты. Использова­ние расстояния SIN имеет ряд преимуществ перед QC. Оно вычисляется гарантировано за линейное время, и максимальная ширина гистораммы, при которой использование расстояние SIN приводит к приемлемому качеству кластеризации, больше, чем для QC, что позволяет экономнее использовать память для представления спектров.
Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Mohimani H., Gurevich A. et al. Dereplication of Peptidic Natural Products Through Database Search of Mass Spectra // Nature Chemical Biology. — 2016. — Vol. 13, no. 1. — P. 30-37.
2. Yang C., He Z., Yu W. Comparison of public peak detection algorithms for MALDI mass spectrometry data analysis // BMC Bioinformatics. — 2009. — Vol. 10. — P. 4-16.
3. Li X. — PROcess: Ciphergen SELDI-TOF Processing, 2005. — R package version 1.48.0.
4. Du P., Kibbe W. A., Lin S. M. Improved peak detection in mass spectrum by incorporating continuous wavelet transform-based pattern matching // Bioinformatics. — 2006. — Vol. 22, no. 17. — P. 2059-2065.
5. French W. R., Zimmerman L. J. et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert // Journal of Proteome Research. — 2015. — Vol. 14, no. 2. — P. 1299-1307.
6. Henikoff J. G., Henikoff S. Amino acid substitution matrices from protein blocks // Proceedings of the National Academy of Sciences of the United States of America. — 1992. — Vol. 89, no. 22. — P. 10915-10919.
7. Rubner Y., Tomasi C., Guibas L. J. The Earth Mover’s Distance as a Metric for Image Retrieval // International Journal of Computer Vision. — 2000. — Vol. 40, no. 2. — P. 99-121.
8. Pele O., Werman M. A Linear Time Histogram Metric for Improved SIFT Matching // Computer Vision - ECCV 2008: 10th European Conference on Computer Vision, Marseille, France, October 12-18, 2008, Proceedings, Part III.— Springer Berlin Heidelberg, 2008. — P. 495-508.
9. Pele O., Werman M. Fast and robust Earth Mover’s Distances // 2009 IEEE 12th International Conference on Computer Vision. — 2009. — P. 460-467.
10. Pele O., Werman M. The Quadratic-Chi Histogram Distance Family // ECCV.— 2010. — P. 749-762.
11. Langfelder P., Zhang B., Horvath S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R // Bioinformatics. — 2008. — Vol. 24, no. 5. — P. 719-720.
12. Park H. S., Jun C. H. A simple and fast algorithm for K-medoids clustering // Expert Systems with Applications. — 2009. — Vol. 36, no. 2. — P. 3336-3341.

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ