1 Введение 1
2 Постановка задачи 1
3 Обозначения 2
4 Описание и подготовка данных2
5 Проверка статистических гипотез 2
6 Подход с использованием сырых спектров 3
7 Подход с использованием деконволюцированных спектров 5
7.1 Начальные и конечные ионы 5
7.2 Внутренние ионы 7
8 Подход с использованием лесенок 8
8.1 Определение лесенок 8
8.2 Алгоритм нахождение лесенок 9
8.3 Примеры найденных лесенок 10
8.4 Анализ позиций разломов 12
9 Заключение 12
10 Исходный код решения
Масс-спектрометрия - это метод, позволяющий идентифицировать и анализировать химические вещества. Изучаемые молекулы ионизируются и расщепляются на части, после чего масс-спектрометр измеряет отношение массы к заряду различных компонент и объем их присутствия в образце с помощью измерения интенсивности ионного тока.
В протеомике масс-спектрометрия используется для идентификации белков и пептидов. Существует два основных подхода, top-down и bottom-up. В случае bottom- up подхода, белок предварительно расщепляется на короткие пептиды, top-down подход использует весь белок целиком.
В работах был представлен алгоритм Twister, решающий задачу de novo секвенирования белков, то есть идентификации последовательности аминокислот в белке на основе набора top-down масс-спектров. Данный алгоритм опирается на тот факт, что фрагментные ионы, соответствующие пикам в масс-спектре, часто образуют последовательности расширяющихся фрагментов с общим концом. Алгоритм в первую очередь опирается на ионы, являющиеся началом или концом всего белка, но в масс-спектрах бывают также и внутренние ионы. Информация об их устройстве и распределении может помочь усовершенствовать алгоритмы de novo секвенирования белков.
В данной работе предполагается проанализировать поведение внутренних фраг- ментных ионов в масс-спектрах.
2 Постановка задачи
Масс-спектр представляет из себя набор пиков, состоящих из величины отношения массы к заряду и интенсивности. При проведении исследований получается множество масс-спектров, не все из них являются масс-спектром для всего белка, часть из них соответствуют префиксу, суффиксу или инфиксу белка. Часть масс-спектров могут соответствовать посторонним молекулам, случайно попавшим в смесь. Но информация о том, чему соответствует каждый масс-спектр неизвестна и должна быть получена алгоритмическими путями. Задачей является исследование top-down масс- спектров для известного белка CAH2. Для каждого масс-спектра требуется понять, из какого фрагмента белка он был получен, а также разметить пики в этом масс- спектре. Пики могут быть отнесены к начальным, конечным, а также внутренним фрагментам ионов. Кроме того, необходимо проанализировать полученные результаты и попытаться найти закономерности в том, в каких позициях последовательности аминокислот чаще всего начинаются или заканчиваются внутренние ионы.
В этой работе была рассмотрена задача аннотирования ионов, в первую очередь внутренних ионов, белковых последовательностей. Последовательными улучшениями алгоритма удалось достоверно находить составленные из внутренних ионов лесенки в масс-спектрах. В свою очередь, это позволило определять, с какого фрагмента белка был снят масс-спектр, а также сделать некоторые выводы о том, как устроены места, в которых происходит расщепление белка на фрагменты.
[1] Neil L. Kelleher, Hong Y. Lin, Gary A. Valaskovic, David J. Aaserud, Einar
K. Fridriksson, and Fred W. McLafferty, Top Down versus Bottom Up Protein Characterization by Tandem High-Resolution Mass Spectrometry, Journal of the American Chemical Society 1999 121 (4), 806-812, DOI: 10.1021/ja973655h
[2] B.T. Chait, Mass spectrometry: Bottom-up or top-down?, Science, 314:5796 (2006), 65-66
[3] K. Vyatkina, S. Wu, L. J. M. Dekker, M. M. VanDuijn, X. Liu., N. Tolic, M. Dvorkin, S. Alexandrova, T. M. Luider, L. Pasa-Tolic, P.A. Pevzner, De novo sequencing of peptides from top-down tandem mass spectra, Journal of Proteome Research, 14:11 (2015), 4450 4462.
[4] K. Vyatkina, S. Wu, L. J. M. Dekker, M. M. VanDuijn, X. Liu., N. Tolic, T. M. Luider, L. Pasa-Tolic, P.A. Pevzner, Top-down analysis of protein samples by de novo sequencing techniques, Bioinformatics, 32:18 (2016), 2753 2759.
[5] K. Vyatkina, De novo sequencing of top-down tandem mass spectra: A next step towards retrieving a complete protein sequence, Proteomes, 5:1 (2017), 6.
[6] K. Vyatkina, L. J. M. Dekker, S. Wu, M. M. VanDuijn, X. Liu., N. Tolic, T. M. Luider,
L. Pasa-Tolic, P.A. Pevzner, De novo sequencing of peptides from high-resolution bottom-up tandem mass spectra using top-down intended methods, Proteomics, 17:23 24 (2017).
[7] X. Liu, Y. Inbar, P. C. Dorrestein, C. Wynne, N. Edwards, P. Souda, J. P. Whitelegge, V. Bafna, P. A. Pevzner, Deconvolution and Database Search of Complex Tandem Mass Spectra of Intact Proteins, Molecular & Cellular Proteomics, 9:12 (2010), 2772 2782.