📄Работа №125425

Тема: Задачи анализа спектров тандемной масс-спектрометрии

Характеристики работы

▣

Тип работы Дипломные работы, ВКР

Предмет Математическое моделирование

📄

Объем: 35 листов

📅

Год: 2017

👁️

4850 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Аннотация 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 4
Глава 1. Определения и постановка задачи 5
1.1. Базовые определения масс-спектрометрии 5
1.2. Дерепликатор и его алгоритм фильтрации пиков 6
1.3. Об идентификации пептидов 8
1.3.1. Описание процедуры и модель ожидаемого спектра 8
1.3.2. Варианты ускорения процедуры идентификации 9
Глава 2. Исследование методов фильтрации масс-спектров 11
2.1. Алгоритм PROcess 11
2.2. Алгоритм MassSpecWavelet 12
2.3. Алгоритм msConvert из библиотеки ProteoWizard 17
2.3.1. Вычислительные эксперименты 18
Глава 3. Результаты кластеризации масс-спектров 20
3.1. Кластеризация ожидаемых масс-спектров 20
3.1.1. Об оценке близости пептидов как строк 20
3.1.2. О векторном вложении масс-спектров 23
3.1.3. О расстояниях между масс-спектрами 23
3.1.4. Об алгоритме кластеризации 28
3.1.5. Описание эксперимента с реальными данными 30
Заключение 34
Список литературы 35

📖 Аннотация

Работа посвящена решению двух ключевых задач анализа спектров тандемной масс-спектрометрии: фильтрации шумовых пиков и ускорению идентификации пептидов. Актуальность исследования обусловлена тем, что зашумленность эмпирических масс-спектров приводит к ошибкам при идентификации веществ, а существующие алгоритмы предобработки, такие как используемый в Дерепликаторе, могут порождать артефакты. В рамках методологии проведен сравнительный анализ алгоритмов фильтрации PROcess и MassSpecWavelet, в результате которого для интеграции в Дерепликатор выбран и модифицирован алгоритм MassSpecWavelet из библиотеки ProteoWizard; модификация обеспечила корректную обработку спектров с неравноотстоящими m/z и малой длиной. Для ускорения поиска в базе данных пептидов исследована кластеризация ожидаемых спектров, где оптимальным признано гистограммное векторное представление в сочетании с иерархической кластеризацией и динамическим обрезанием дерева; тестирование на реальных данных показало эффективность синусного расстояния (SIN) и Quadratic-Chi Histogram Distance (QC) в качестве мер близости. Практическая значимость результатов заключается в их непосредственном применении для улучшения программного конвейера Дерепликатор, что повысит точность и скорость анализа в протеомике и при поиске новых природных соединений. Проведенный анализ научной литературы позволил обосновать выбор методов и направлений модификации. Таким образом, реализованные решения позволяют минимизировать артефакты фильтрации и существенно ускорить процедуру идентификации пептидов за счет эффективной кластеризации эталонных спектров.

📖 Введение

Масс-спектрометрия — это техника, которую используют для определения химического состава веществ. Для исследуемого вещества метод строит масс-спектр — сигнал, который представляет собой зависимость интенсивности (количества) ионов от отношения массы к заряду иона.
Ввиду особенностей метода ионизации, взвешивания молекул, специфики прибора и самого вещества, получаемые масс-спектры вообще говоря зашумлены. Это влияет на результаты дальнейшего анализа, например, в методах идентификации вещества наличие шумовых пиков приводит к большому количеству ложных сопоставлений пептидам.
Так как масс-спектры активно используются во многих областях знаний, существует большое количество методов для удаления шума и других артефактов из масс-спектра.
Текущая процедура фильтрации пиков в Дерепликаторе [1] имеет ряд недостатков, самый важный из которых заключается в том, что в полученном спектре появляются новые пики.
Первая задача данной работы — исследовать существующие методы фильтрации пиков и выбрать наиболее подходящий из них или предложить модификацию для интегрирования в Дерепликатор.
Вторая задача связана с идентификацией пептидов. Существуют методы, которые решают задачу определения химической формулы пептида по масс-спектру, один из них использует базу данных пептидов. Для каждого пептида в базе данных специальным образом строится ожидаемый спектр, затем каждый спектр сравнивается с масс-спектром, для которого требуется узнать формулу пептида.
Если эмпирических масс-спектров много, то наивный алгоритм, требующий перебор всех пептидов из базы данных, работает достаточно медленно, но процедуру можно ускорить, кластеризовав или ожидаемые спектры, или эмпирические.
Таким образом, вторая задача данной работы — научиться кластеризовать эти спектры, подобрав подходящее векторное представление и меру близости между ними.
Далее кратко описан состав работы.
В главе 1 изложены базовые определения масс-спектрометрии и сформулированы задачи дипломной работы. В главе 2 помещены результаты исследования методов фильтрации пиков в масс-спектрах, их алгоритмы и сравнение.
Глава 3 содержит результаты, связанные с кластеризацией ожидаемых спектров. В ней описаны выбор оптимального векторного представления спектров, предложены варианты расстояния между спектрами и представлены результаты вычислительного эксперимента на реальных данных.

✅ Заключение

Масс-спектрометрия — широко используемый инструмент определения химического состава веществ. В этой работе были рассмотрены две задачи, связанные с анализом масс-спектров.
Первая задача связана с фильтрацией пиков в масс-спектрах. Исходно масс-спектры зашумлены и могут включать тренд, это влияет на результаты дальнейшей обработки. Текущая фильтрация пиков в Дерепликаторе имеет ряд недостатков, поэтому были исследованы актуальные методы фильтрации пиков PROcess и MassSpecWavelet из пакета Bioconductor в R. Оба алгоритма оценивают некоторым образом отношение сигнала к шуму (SNR) в каждой точке спектра, а затем отбираются те пики, для которых SNR больше некоторого порога. Основное отличие этих двух алгоритмов в том, что в PROcess существуют отдельные шаги для извлечения оценок шума и тренда, а в MassSpecWavelet в виду особенностей использования непрерывного вейвлет-преобразо- вания это не требуется.
В качестве альтернативы отбора пиков в Дерепликаторе был выбран MassSpec- Wavelet, но его алгоритм неявно предполагает, что m/z в спектре равноотстоящие. В ProteoWizard реализована модификация MassSpecWavelet, которую можно применять для не равноотстоящих m/z, однако она нуждалась в доработке — чтобы правильно обрабатывались спектры небольшой длины, все относительные параметры были переведены в абсолютные. Измененная реализация была протестистирована на масс-спектрах с известными пептидами, чтобы убедиться в корректности.
Вторая задача относится к ускорению процедуры идентификации пептидов. Существуют методы, позволяющие определить химическую формулу пептида по его масс- спектру, один из них использует для этих целей базу данных пептидов. Чтобы ускорить поиск подходящего пептида в базе данных, а точнее ожидаемого спектра, который строится по каждому пептиду из базу данных, предложено кластеризовать эмпирические масс-спектры, для которых необходимо узнать пептид, и ожидаемые спектры.
Задача кластеризации первых намного сложнее ввиду зашумленности спектров и ряда других причин, поэтому в работе исследовались ожидаемые спектры. В качестве оптимального векторного вложения ожидаемых спектров было выбрано представление в виде гистограммы, а для кластеризации выбран алгоритм иерархической кластеризации с динамическим обрезанием дерева. На реальных данных были протестированы три варианта расстояний между спектрами, и два из них — синусное расстояние (SIN) и Quadratic-Chi Histogram Distance (QC) — показали подходящие результаты. Использование расстояния SIN имеет ряд преимуществ перед QC. Оно вычисляется гарантировано за линейное время, и максимальная ширина гистораммы, при которой использование расстояние SIN приводит к приемлемому качеству кластеризации, больше, чем для QC, что позволяет экономнее использовать память для представления спектров.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Mohimani H., Gurevich A. et al. Dereplication of Peptidic Natural Products Through Database Search of Mass Spectra // Nature Chemical Biology. — 2016. — Vol. 13, no. 1. — P. 30-37.
2. Yang C., He Z., Yu W. Comparison of public peak detection algorithms for MALDI mass spectrometry data analysis // BMC Bioinformatics. — 2009. — Vol. 10. — P. 4-16.
3. Li X. — PROcess: Ciphergen SELDI-TOF Processing, 2005. — R package version 1.48.0.
4. Du P., Kibbe W. A., Lin S. M. Improved peak detection in mass spectrum by incorporating continuous wavelet transform-based pattern matching // Bioinformatics. — 2006. — Vol. 22, no. 17. — P. 2059-2065.
5. French W. R., Zimmerman L. J. et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert // Journal of Proteome Research. — 2015. — Vol. 14, no. 2. — P. 1299-1307.
6. Henikoff J. G., Henikoff S. Amino acid substitution matrices from protein blocks // Proceedings of the National Academy of Sciences of the United States of America. — 1992. — Vol. 89, no. 22. — P. 10915-10919.
7. Rubner Y., Tomasi C., Guibas L. J. The Earth Mover’s Distance as a Metric for Image Retrieval // International Journal of Computer Vision. — 2000. — Vol. 40, no. 2. — P. 99-121.
8. Pele O., Werman M. A Linear Time Histogram Metric for Improved SIFT Matching // Computer Vision - ECCV 2008: 10th European Conference on Computer Vision, Marseille, France, October 12-18, 2008, Proceedings, Part III.— Springer Berlin Heidelberg, 2008. — P. 495-508.
9. Pele O., Werman M. Fast and robust Earth Mover’s Distances // 2009 IEEE 12th International Conference on Computer Vision. — 2009. — P. 460-467.
10. Pele O., Werman M. The Quadratic-Chi Histogram Distance Family // ECCV.— 2010. — P. 749-762.
11. Langfelder P., Zhang B., Horvath S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R // Bioinformatics. — 2008. — Vol. 24, no. 5. — P. 719-720.
12. Park H. S., Jun C. H. A simple and fast algorithm for K-medoids clustering // Expert Systems with Applications. — 2009. — Vol. 36, no. 2. — P. 3336-3341.

🖼 Скриншоты

Содержание с введением

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211445)

Статьи

»» Все статьи

Вход в личный кабинет