Глава 1. Введение 3
1.1. Обзор 3
1.2. Описание 4
Глава 2. Методы 5
2.1. Формат данных 5
2.2. Оценка качества 7
2.3. Схема работы 13
Глава 3. Результаты 15
3.1. Функционал 15
3.2. Запуск на тестовых данных 16
Глава 4. Заключение 16
Список литературы 16
Приложение 17
В биоинформатике огромное значение имеет определение различных молекул. Определение это обычно происходит посредством масс-спектрометрии. Масс-спектрометрия проходит в два этапа. В первом этапе, специальный прибор (масс-спектрометер) разбивает молекулы образца по m/z (отношение массы молекулы к её заряду) на различные группы. На втором этапе масс-спектрометер разбивает молекулы какой-то группы на маленькие части и считает количество (интенсивность) фрагментов каждой получившийся массы. Полученные данные записываются в файл, мы этот файл далее будем называть спектром.
1.1.2 Дерепликаторы
Полученные данные масс-спектрометрии нужно анализировать. В зависимости от типа исследуемых молекул используется разное программное обеспечение. Особенный класс важных для биоинформатики молекул — малые молекулы обрабатываются дерепликаторами. У них также имеется база данных с формулами молекул, одной из которых является исследуемая молекула.
То есть, можно сказать, назначением дерепликаторов по факту является выявление формулы исследуемой молекулы из предоставленных кандидатов по предоставленному спектру.
Начнем с определения базовых понятий:
Спектр — файл, в котором хранится информация о разбиении какой-то молекулы на масс-спектры.
База данных — файл, в котором хранится информация о формулах молекул, одной из которых является исследуемая молекула (там также может хранится и другая информация о молекулах, но пользоваться мы ей не будем).
Дерепликатор — программа, назначение которой определять молекулу по спектру среди множества данных молекул (задаётся файл с базой данных).
InChi-ключ — что-то вроде хэш-кода молекулы, то есть некоторый символьный отпчаток, который, если у двух молекул совпадает, то сами молекулы тоже совпадают с очень большой вероятностью.
Скор — мера уверенности дерепликатора в той или иной идентификации, чем меньше скор, тем сильнее дерепликатор уверен в правильности соответствующего ответа.
NPD-Quast — разработанная мной программа, которая выполняет указанную в отчёте задачу.
На данный момент разработчики дерепликаторов и их пользователи испытывают сложности с определением качества их работы, а также сравнении их друг с другом. В качестве решения этой задачи, на текущий момент, периодически проводятся соревнования, где участниками являются разработчики дерепликаторов. Участники отсылают свои дерепликаторы организаторам, те в свою очередь запускают эти дерепликаторы на некоторых данных, единых для всех участников, а потом анализируют и составляют метрики на их основе.
С целью упростить эту проблемму мной была разработана программа NPD-Quast (Natural Peptide Dereplicator - Quaslity Accessment Tool). Данная программа по факту делает тоже самое, что делали организаторы соревнований, только автоматически и локально, а именно запуск некоторых дерепликаторов на имеющихся данных и составление метрик на поученных данных.
В ходе проделанной работы была разработана программа, позволяющая запускать дерепликаторы на данных в определённом формате и мерить качество их работы, а также сравнивать между собой. Помимо этого разработчики получили возможность добавть свой дерепликатор в список поддерживаемых. Также было реализовано несколько несложных методов генерации декоев, которые позволяют измерять качетво работы дерепликатора даже без правильных ответов.
Далее можно усовершенствовать методы генерации декоев, а также добавлять новые дерепликаторы в список поддерживаемых.
[1] Mohimani, H., Gurevich, A., Shlemov, A. et al. Dereplication of microbial metabolites through database search of mass spectra. Nat Commun 9, 4035 (2018).
[2] Schymanski, E.L., Ruttkies, C., Krauss, M. et al. Critical Assessment of Small Molecule Identification 2016: automated methods. J Cheminform 9, 22 (2017).
[3] Duhrkop, K., Fleischauer, M., Ludwig, M. et al. SIRIUS 4: a rapid tool for turning tandem mass spectra into metabolite structure information. Nat Methods 16, 299-302 (2019).
[4] Verdegem, D., Lambrechts, D., Carmeliet, P. et al. Improved metabolite identification with MIDAS and MAGMa through MS/MS spectral dataset-driven parameter optimization. Metabolomics 12, 98 (2016).
[5] Elias, J.E., Gygi S.P. Target-decoy search strategy for mass spectrometry-based proteomics. Proteome bioinformatics (2010).
[6] Scheubert, K., Hufsky, F., Petras, D. et al. Significance estimation for large scale metabolomics annotations by spectral matching. Nat Commun 8, 1494 (2017).