Тип работы:
Предмет:
Язык работы:


Вариативная идентификация природных соединений по масс-спектрам

Работа №141874

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы20
Год сдачи2023
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
26
Не подходит работа?

Узнай цену на написание


Введение 3
1. Постановка задачи 5
1.1. Терминология 5
1.2. ППС-графы и их модификации 5
1.3. Задачи идентификации пептидных природных соединений 7
1.4. Алгоритм вариативной идентификации пептидных природных соединений
VarQuest 7
2. Сравнение ППС-графов 9
2.1. Проверка решений задач идентификации ППС 9
2.2. Структурные особенности ППС-графов 9
2.3. Эффективный алгоритм проверки ППС-графов на изоморфность 10
3. Методы 13
3.1. Данные 13
3.1.1 Спектры пептидных природных соединений из GNPS 13
3.1.2 База пептидных природных соединений 13
3.2. Алгоритм идентификации спектра по ППС-графу с двумя модификациями . 13
3.3. Определение допустимых модификаций 14
4. Результаты 17
4.1. Идентификация спектров по PNPdatabase 17
4.2. Качество идентификации в условиях отсутствия ori-ППС и его 1-вариантов . 17
4.3. Вклад ModAdmissibility в вариативную идентификацию 18
Заключение 20
Список литературы 21


Природные соединения (англ. natural products) — органические соединения, синтезируемые микроорганизмами. Они не являются необходимыми для выживания, но дают организмам, которые их производят, эволюционное преимущество. Пептидные природные соединения (ППС) представляют собой фармакологически важный класс природных соединений; многие его представители обладают антимикробными, противораковыми и противовирусными свойствами [1]. ППС состоят из аминокислот, соединённых пептидными связями, но в отличии от обычных пептидов и белков, ППС может содержать нестандартные аминокислоты (более 100 видов), редкие пост-трансляционные модификации и иметь сложную топологию, например, циклическую или разветвлённую структуру. Эти особенности существенно затрудняют поиск новых ППС, несмотря на их высокую ценность с точки зрения медицины.
Наиболее распространённый метод для идентификации ППС в природных образцах — тандемная масс-спектрометрия. Молекулы данного образца ионизируются, и первый масс- спектрометр разделяет эти ионы по их отношению массы к заряду (часто обозначается как m/z). Ионы с определённым соотношением m/z отбираются и поступают во второй масс-спектрометр. Он расщепляет эти ионы на более мелкие фрагменты, разделяет по соотношению m/z и производит подсчёт доли каждого из фрагментов. Так получается масс-спектр (тандемный масс- спектр, спектр) вещества.
В то время, как миллионы тандемных масс-спектров пептидных природных соединений были получены и размещены в базе Global Natural Products Social (GNPS) [2], для подавляющего большинства из них до сих пор неизвестно вещество, породившее спектр. Поэтому возникает задача идентификации — нахождения в базе данных веществ того ППС, которое сгенерировало определённый масс-спектр. Из-за особенностей строения пептидных природных соединений идентификация их спектров значительно труднее традиционной идентификации белков и пептидов в протеомике. В частности, классические инструменты из протеомики не применимы в этой задаче.
Нестандартное строение лишь одна из двух основных трудностей идентификации пептидных природных соединений. Во многих случаях вещество, породившее спектр, отсутствует в базе данных, тогда как, например, с одной изменённой или отсутствующей аминокислотой - присутствует. Задача идентификации по масс-спектру неизвестного ППС из его известных вариантов называется вариативной идентификацией, в отличие от стандартной идентификации, когда ППС присутствует в базе данных.
Поскольку большинство ППС образуют семейства близких по строению соединений, вариативная идентификация имеет решающее значение для открытия новых пептидных природных соединений. Поиск вариантов известных ППС важен, так как они иногда более эффективны с клинической точки зрения, чем другие представители семейства.
Для идентификации пептидных природных соединений создано несколько алгоритмов, но качество их работы ещё далеко от идеала. Примерами таких алгоритмов являются Dereplicator [3] и VarQuest [4]. В то время, как Dereplicator разработан для стандартной идентификации, VarQuest способен производить вариативную идентификацию пептидных природных соединений. Для данного масс-спектра VarQuest проводит поиск в базе данных и выдаёт список из возможных кандидатов — известных ППС, с указанием аминокислоты, модификация которой может привести к ППС, породившему исходный спектр. При этом алгоритм устроен так, что способен обнаруживать только пептидные природные соединения, отличающиеся одной модификацией. Однако разнообразие ППС и их модификаций столь велико, что для многих полученных масс-спектров ещё не известно ни соединение, породившее спектр, ни один из его вариантов с одной модификацией. С другой стороны, хоть модификации и бывают весьма разнообразными, некоторые из них встречаются в природе намного чаще, чем другие. В связи с этим возникает потребность расширить функциональность современных алгоритмов для вариативной идентификации ППС.
Целью данной работы является реализация алгоритма вариативной идентификации масс-спектров пептидных природных соединений с учётом двух возможных модификаций. При этом одна модификация предполагается распространённой (из небольшого списка конкретных высокочастотных модификаций), а вторая — произвольная, как это было изначально в алгоритме VarQuest.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе я разработал метод вариативной идентификации пептидных природных соединений по масс-спектрам с учётом двух возможных модификаций. При этом одна модификация предполагается фиксированной, а вторая - произвольная. Фиксированная модификация может быть как одной из высокочастотных, так и некоторой специальной, заданной пользователем в соответствии с его интересами. Метод был протестирован на 353 спектрах из базы GNPS [2] и PNPdatabase из 5 084 ППС [4].
Дополнительно был реализован подход к фильтрации кандидатов, который позволяет заметно улучшить качество вариативной идентификации вне зависимости от числа предлагаемых модификаций. Кроме того, в целях оценки качества разработанных алгоритмов, была исследована задача проверки графов на изоморфность, и для графов, соответствующих пептидным природным соединениям, придуман алгоритм с квадратичной вычислительной сложностью.
Реализованный метод позволяет идентифицировать масс-спектры ранее неизвестных пептидных соединений, которые не могли быть идентифицированы современными алгоритмами, что, в свою очередь, ускоряет поиск новых антибиотиков, иммунодепрессантов и других лекарств.


[1] Li, J.W. & Vederas, J.C. Drug discovery and natural products: end of an era or an endless frontier? Science 325, 161-165 (2009).
[2] Wang, M. et al. Sharing and community curation of mass spectrometry data with global natural products social molecular networking. Nat. Biotechnol. 34, 828-837 (2016).
[3] Mohimani, H., Gurevich, A., Mikheenko, A. et al. Dereplication of peptidic natural products through database search of mass spectra. Nat. Chem. Biol. 13, 30-37 (2017).
[4] Gurevich, A., Mikheenko, A., Shlemov, A. et al. Increased diversity of peptidic natural products revealed by modification-tolerant database search of mass spectra. Nat. Microbiol. 3, 319-327 (2018).
[5] Mohimani, H., Kim, S. & Pevzner, P. A. A new approach to evaluating statistical significance of spectral identifications. J. Proteome Res. 12, 1560-1568 (2013).



Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ