Пептиды, содержащие аминокислотные полиморфизмы (мутации), называются вариантыми. Задача детекции вариантых пептидов актульна тем, что данные полиморфизмы вызывают нарушения в работе белка, что может привести к развитию различных заболеваний.
В экспериментах в протеомике на основе жидкой хроматографии в тандеме с масс-спектрометрией (liquid chromatography-tandem mass spectrometry, LC-MS/MS) пептиды предварительно разделяются при помощи жидкой хроматографии и потом передаются масс-спектрометру. Время, за которое хроматограф подаёт пептид спектрометру называется временем удерживания (retention time, RT). Так как время удерживания основывается на физических и химических свойствах пептида при определённом виде жидкой хроматографии, оно предсказуемо в теории [1].
Целью данной работы является рассмотрение возможности применения времени удерживания как признака пептида для детекции вариантных пептидов.
В данной работе было исследовано устройство самых передовых моделей для предсказывания времени удерживания пептидов, проведены эксперименты для данных моделей как на широкоизвестных, так и на экспериментальных данных и построены соответствующие графики рассеивания с вычисленными коэффициентами корелляции Пирсона. Модель DeepRT+ проявила себя лучше всего, и, в теории, успешные предсказания должны помочь повысить качество идентификации вариантных пептидов в комбинации с уже известными методами. В дальнейшей работе планируется поближе изучить последовательности, в которых данные модели ошибаются и предложить методы по их улучшению, а так же выявить, какие признаки могут помочь успешно "почистить"датасет для лучшего качества предсказаний помимо EValue.
[1] Moruz, L. and Kall, L. Peptide retention time prediction. Mass Spectrometry Reviews 2016:n/a-n/a.
[2] Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods 11, 1114-1125. issn: 1548-7091 (2014).
[3] Gloria M. Sheynkman, Michael R. Shortreed, Brian L. Frey, Mark Scalf, and Lloyd M. Smith Large-scale mass spectrometric detection of variant peptides resulting from nonsynonymous nucleotide differences Journal of Proteome Research 2014 13 (1), 228-240
[4] Menschaert, G. and Fenyo, D. Proteogenomics from a bioinformatics angle: A growing field. Mass Spec Rev, 36: 584-599. https://doi.org/10.1002/mas.21483 (2017)
[5] Alioto TS, Buchhalter I, Derdak S, Hutter B, Eldridge MD, Hovig E, et al. A comprehensive assessment of somatic mutation detection in cancer using whole-genome sequencing. Nat Commun. 2015;6:10001.
[6] Feng S, Sterzenbach R, Guo X. Deep learning for peptide identification from metaproteomics datasets. J Proteomics. 2021 Sep 15;247:104316. doi: 10.1016/j.jprot.2021.104316. Epub 2021 Jul 8. PMID: 34246788; PMCID: PMC8435027.
[7] Ma, C. et al. Improved peptide retention time prediction in liquid chromatography through deep learning. Anal. Chem. 90, 10881-10888 (2018)
[8] Ma, C. et al. DeepRT: deep learning for peptide retention time prediction in proteomics. arXiv Prepr. arXiv1705.05368 (2017).
[9] Bouwmeester, R., Gabriels, R., Hulstaert, N. et al. DeepLC can predict retention times for peptides that carry as-yet unseen modifications. 10.1101/2020.03.28.013003 (2020).
[10] Alfaro, J.A., Ignatchenko, A., Ignatchenko, V. et al. Detecting protein variants by mass spectrometry: a comprehensive study in cancer cell-lines. Genome Med 9, 62 (2017).
[11] Mason, K. E., Anex, D., Grey, T., Hart, B., Parker, G. (2018). Protein-based forensic identification using genetically variant peptides in human bone. Forensic Science International, 288, 89-96.