Введение 2
Постановка задачи 3
Описание алгоритма 4
Обнаружение кандидатов 4
Оценочная функция 5
Фильтрация пиков 6
Отбор кандидатов 6
Результаты 8
Заключение 10
Список литературы 11
Масс-спектрометрия белков — это метод идентификации и анализа молекул при помощи прибора, называемого масс-спектрометром. На практике анализ масс-спектров белков и пептидов представляет собой сложную задачу, поскольку сложность технологии и ошибки, возникающие в ходе эксперимента, приводят к низкой воспроизводимости результатов и появлению различий в масс-спектрах, снятых с одного и того же образца.
В масс-спектрометрии существуют два основных подхода — bottom-up и top-down [1, 2]. При подходе bottom-up белок предварительно расщепляется на короткие пептиды, в то время как в соответствии с технологией top-down белковая молекула анализируется целиком. Непосредственным результатом работы масс-спектрометра являются так называемые "сырые" масс-спектры, в которых представлена зависимость величины ионного тока от отношения массы к заряду. Путём выделения пиков из них могут получены центрированные масс-спектры, в которых указанная зависимость представлена дискретными пиками. Далее на этапе деконволюции происходит переход от отношения массы к заряду к нейтральным моноизотопным массам.
С использованием различных приборов могут быть получены масс-спектры низкого, высокого и сверхвысокого разрешения. Для задач количественного анализа, а также идентификации пептидов по базам данных, как правило, достаточно низкого разрешения, однако для решения ряда других задач (в частности, de novo секвенирования белков) необходимо использовать высокое или сверхвысокое разрешение.
Технологический прорыв в 2000-х годах [3] привёл к возможности получать данные высокого и сверхвысокого разрешения при сравнительно небольших затратах. Такие масс-спектры весьма информативны, но для их анализа необходимы новые эффективные алгоритмы.
При обработке top-down масс-спектром деконволюция является необходимым шагом, в то время как при обработке bottom-up масс-спектров ее обычно не применяют. Однако было показано, что деконволюция bottom-up масс-спектров, снятых с высоким разрешением, делает возможным применение для их обработки алгоритм Twister (описание изложено в [6, 7, 8, 9]), изначально предназначенный для de novo секвенирования белков. В то же время алгоритмы деконволюции, предназначенные для обработки top-down масс-спектров, не учитывают особенностей bottom-up данных. Тем самым обусловлена необходимость их адаптации к этому случаю.
В данной работе мы предлагаем усовершенствованную версию алгоритма MS-Deconv, предложенного в [4]. Этот алгоритм изначально был предназначен для деконволюции top-down масс- спектров высокого разрешения. Наша цель заключалась в том, чтобы адаптировать алгоритм для работы с bottom-up масс-спектрами высокого и сверхвысокого разрешения. Для этого необходимо было учесть особенности, характерные для масс-спектров пептидов и так называемой "тонкой структуры" изотопных кластеров (fine isotopic structure). Мы внесли в алгоритм изменения, улучшающие результаты обработки масс-спектров пептидов и обеспечивающие возможность его применения к данным сверхвысокого разрешения.
В этой работе мы предложили альтернативу алгоритму MS-Deconv, которую можно впоследствии применять для анализа bottom-up масс-спектров высокого и сверхвысокого разрешения. В дальнейшем планируется объединить все используемые программы в единый пайплайн, а так же продолжить тестирование алгоритма на данных, снятых по другим технологиям. Для представленного алгоритма можно предложить несколько дальнейших улучшений. Во-первых, качество результатов может возрасти, если уровень шума выбирать динамически (например, регулируя долю нешумовых пиков в масс-спектре). Во-вторых, потенциально могут быть улучшены методы фильтрации пиков. Для bottom-up масс-спектров нередки изотопные кластеры, состоящие из небольшого числа пиков, и их следует анализировать иначе, нежели более крупные. В-третьих, время работы шага обнаружения кандидатов можно уменьшить, если заранее сгенерировать базу данных изотопных кластеров. В-четвёртых, алгоритм можно распространить на случай, когда в масс-спектр входят ионы типов, отличных от b и у. Наконец, интересно найти аналог задачи отбора изотопных кластеров, в котором различные взятые кластеры могут иметь общие пики. Все эти улучшения будут целью последующих исследований.
[1] N. L. Kelleher, Н. Y. Lin, G. A. Valaskovic, G. A. Aaserud, E. K. Fridriksson, F. W. McLafferty, Top down versus bottom up protein characterization by tandem highresolution mass spectrometry. Journal of American Chemical Society, 121:4 (1999), 806-812.
[2] B.T. Chait, Mass spectrometry: Bottom-up or top-down? Science, 314:5796 (2006), 65-66.
[3] Q. Hu, H. Li, A. Makarov, M. Hardman, R. G. Cooks, The Orbitrap: A new mass spectrometer. Journal of Mass Spectrometry, 40:4 (2005), 430-433.
[4] X. Liu, Y. Inbar, P. C. Dorrestein, C. Wynne, N. Edwards, P. Souda, J. P. Whitelegge, V. Bafna, P. A. Pevzner, Deconvolution and Database Search of Complex Tandem Mass Spectra of Intact Proteins. Molecular & Cellular Proteomics, 9:12 (2010), 2772-2882.
[5] A. L. Rockwood, P. Haimi, Efficient Calculation of Accurate Masses of Isotopic Peaks. Journal of American Society for Mass Spectrometry, 17 (2006), 415-419.
[6] K. Vyatkina, S. Wu, L. J. M. Dekker, M. M. VanDuijn, X. Liu., N. Tolic, M. Dvorkin, S. Alexandrova, T. M. Luider, L. Pasa-Tolic, P.A. Pevzner, De novo sequencing of peptides from top-down tandem mass spectra. Journal of Proteome Research, 14:11 (2015), 4450-4462.
[7] K. Vyatkina, S. Wu, L. J. M. Dekker, M. M. VanDuijn, X. Liu., N. Tolic, T. M. Luider, L. Pasa-Tolic, P.A. Pevzner, Top-down analysis of protein samples by de novo sequencing techniques. Bioinformatics, 32:18 (2016), 2753-2759.
[8] K. Vyatkina, De novo sequencing of top-down tandem mass spectra: A next step towards retrieving a complete protein sequence. Proteomes, 5:1 (2017), 6.
[9] K. Vyatkina, L. J. M. Dekker, S. Wu, M. M. VanDuijn, X. Liu., N. Tolic, T. M. Luider, L. Pasa- Tolic, P.A. Pevzner, De novo sequencing of peptides from high-resolution bottom-up tandem mass spectra using top-down intended methods. Proteomics, 17:23-24 (2017).
[10] S. Kim, N. Gupta, P. Pevzner, Spectral probabilities and generating functions of tandem mass spectra: A strike against decoy databases. Journal of Proteome Research, 7:8 (2008), 3354-3363.
[11] S. Kim, P. Pevzner, MS-GF makes progress towards a universal database search tool for proteomics. Nature Communications, 5 (2014), 5277.
[12] K. A. Cupp-Sutton, S. Wu, High-throughput quantitative top-down proteomics. Molecular Omics, 16:2 (2020), 91-99