Тема: Задачи анализа спектров тандемной масс-спектрометрии
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Определения и постановка задачи 5
1.1. Базовые определения масс-спектрометрии 5
1.2. Дерепликатор и его алгоритм фильтрации пиков 6
1.3. Об идентификации пептидов 8
1.3.1. Описание процедуры и модель ожидаемого спектра 8
1.3.2. Варианты ускорения процедуры идентификации 9
Глава 2. Исследование методов фильтрации масс-спектров 11
2.1. Алгоритм PROcess 11
2.2. Алгоритм MassSpecWavelet 12
2.3. Алгоритм msConvert из библиотеки ProteoWizard 17
2.3.1. Вычислительные эксперименты 18
Глава 3. Результаты кластеризации масс-спектров 20
3.1. Кластеризация ожидаемых масс-спектров 20
3.1.1. Об оценке близости пептидов как строк 20
3.1.2. О векторном вложении масс-спектров 23
3.1.3. О расстояниях между масс-спектрами 23
3.1.4. Об алгоритме кластеризации 28
3.1.5. Описание эксперимента с реальными данными 30
Заключение 34
Список литературы 35
📖 Аннотация
📖 Введение
Ввиду особенностей метода ионизации, взвешивания молекул, специфики прибора и самого вещества, получаемые масс-спектры вообще говоря зашумлены. Это влияет на результаты дальнейшего анализа, например, в методах идентификации вещества наличие шумовых пиков приводит к большому количеству ложных сопоставлений пептидам.
Так как масс-спектры активно используются во многих областях знаний, существует большое количество методов для удаления шума и других артефактов из масс-спектра.
Текущая процедура фильтрации пиков в Дерепликаторе [1] имеет ряд недостатков, самый важный из которых заключается в том, что в полученном спектре появляются новые пики.
Первая задача данной работы — исследовать существующие методы фильтрации пиков и выбрать наиболее подходящий из них или предложить модификацию для интегрирования в Дерепликатор.
Вторая задача связана с идентификацией пептидов. Существуют методы, которые решают задачу определения химической формулы пептида по масс-спектру, один из них использует базу данных пептидов. Для каждого пептида в базе данных специальным образом строится ожидаемый спектр, затем каждый спектр сравнивается с масс-спектром, для которого требуется узнать формулу пептида.
Если эмпирических масс-спектров много, то наивный алгоритм, требующий перебор всех пептидов из базы данных, работает достаточно медленно, но процедуру можно ускорить, кластеризовав или ожидаемые спектры, или эмпирические.
Таким образом, вторая задача данной работы — научиться кластеризовать эти спектры, подобрав подходящее векторное представление и меру близости между ними.
Далее кратко описан состав работы.
В главе 1 изложены базовые определения масс-спектрометрии и сформулированы задачи дипломной работы. В главе 2 помещены результаты исследования методов фильтрации пиков в масс-спектрах, их алгоритмы и сравнение.
Глава 3 содержит результаты, связанные с кластеризацией ожидаемых спектров. В ней описаны выбор оптимального векторного представления спектров, предложены варианты расстояния между спектрами и представлены результаты вычислительного эксперимента на реальных данных.
✅ Заключение
Первая задача связана с фильтрацией пиков в масс-спектрах. Исходно масс-спектры зашумлены и могут включать тренд, это влияет на результаты дальнейшей обработки. Текущая фильтрация пиков в Дерепликаторе имеет ряд недостатков, поэтому были исследованы актуальные методы фильтрации пиков PROcess и MassSpecWavelet из пакета Bioconductor в R. Оба алгоритма оценивают некоторым образом отношение сигнала к шуму (SNR) в каждой точке спектра, а затем отбираются те пики, для которых SNR больше некоторого порога. Основное отличие этих двух алгоритмов в том, что в PROcess существуют отдельные шаги для извлечения оценок шума и тренда, а в MassSpecWavelet в виду особенностей использования непрерывного вейвлет-преобразо- вания это не требуется.
В качестве альтернативы отбора пиков в Дерепликаторе был выбран MassSpec- Wavelet, но его алгоритм неявно предполагает, что m/z в спектре равноотстоящие. В ProteoWizard реализована модификация MassSpecWavelet, которую можно применять для не равноотстоящих m/z, однако она нуждалась в доработке — чтобы правильно обрабатывались спектры небольшой длины, все относительные параметры были переведены в абсолютные. Измененная реализация была протестистирована на масс-спектрах с известными пептидами, чтобы убедиться в корректности.
Вторая задача относится к ускорению процедуры идентификации пептидов. Существуют методы, позволяющие определить химическую формулу пептида по его масс- спектру, один из них использует для этих целей базу данных пептидов. Чтобы ускорить поиск подходящего пептида в базе данных, а точнее ожидаемого спектра, который строится по каждому пептиду из базу данных, предложено кластеризовать эмпирические масс-спектры, для которых необходимо узнать пептид, и ожидаемые спектры.
Задача кластеризации первых намного сложнее ввиду зашумленности спектров и ряда других причин, поэтому в работе исследовались ожидаемые спектры. В качестве оптимального векторного вложения ожидаемых спектров было выбрано представление в виде гистограммы, а для кластеризации выбран алгоритм иерархической кластеризации с динамическим обрезанием дерева. На реальных данных были протестированы три варианта расстояний между спектрами, и два из них — синусное расстояние (SIN) и Quadratic-Chi Histogram Distance (QC) — показали подходящие результаты. Использование расстояния SIN имеет ряд преимуществ перед QC. Оно вычисляется гарантировано за линейное время, и максимальная ширина гистораммы, при которой использование расстояние SIN приводит к приемлемому качеству кластеризации, больше, чем для QC, что позволяет экономнее использовать память для представления спектров.





