Тип работы:
Предмет:
Язык работы:


Вариативная идентификация природных соединений по масс-спектрам

Работа №126713

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы21
Год сдачи2023
Стоимость4650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
36
Не подходит работа?

Узнай цену на написание


Введение 3
1. Постановка задачи 5
1.1. Терминология 5
1.2. ППС-графы и их модификации 5
1.3. Задачи идентификации пептидных природных соединений 7
1.4. Алгоритм вариативной идентификации пептидных природных соединений VarQuest 7
2. Сравнение ППС-графов 9
2.1. Проверка решений задач идентификации ППС 9
2.2. Структурные особенности ППС-графов 9
2.3. Эффективный алгоритм проверки ППС-графов на изоморфность 10
3. Методы 13
3.1. Данные 13
3.1.1 Спектры пептидных природных соединений из GNPS 13
3.1.2 База пептидных природных соединений 13
3.2. Алгоритм идентификации спектра по ППС-графу с двумя модификациями 13
3.3. Определение допустимых модификаций 14
4. Результаты 17
4.1. Идентификация спектров по PNPdatabase 17
4.2. Качество идентификации в условиях отсутствия ori-ППС и его 1-вариантов 17
4.3. Вклад ModAdmissibility в вариативную идентификацию 18
Заключение 20
Список литературы 21

Природные соединения (англ. natural products) — органические соединения, синтезиру­емые микроорганизмами. Они не являются необходимыми для выживания, но дают организ­мам, которые их производят, эволюционное преимущество. Пептидные природные соединения (ППС) представляют собой фармакологически важный класс природных соединений; многие его представители обладают антимикробными, противораковыми и противовирусными свой­ствами [1]. ППС состоят из аминокислот, соединённых пептидными связями, но в отличии от обычных пептидов и белков, ППС может содержать нестандартные аминокислоты (более 100 видов), редкие пост-трансляционные модификации и иметь сложную топологию, например, циклическую или разветвлённую структуру. Эти особенности существенно затрудняют поиск новых ППС, несмотря на их высокую ценность с точки зрения медицины.
Наиболее распространённый метод для идентификации ППС в природных образцах — тандемная масс-спектрометрия. Молекулы данного образца ионизируются, и первый масс- спектрометр разделяет эти ионы по их отношению массы к заряду (часто обозначается как m/z). Ионы с определённым соотношением m/z отбираются и поступают во второй масс-спектрометр. Он расщепляет эти ионы на более мелкие фрагменты, разделяет по соотношению m/z и про­изводит подсчёт доли каждого из фрагментов. Так получается масс-спектр (тандемный масс- спектр, спектр) вещества.
В то время, как миллионы тандемных масс-спектров пептидных природных соединений были получены и размещены в базе Global Natural Products Social (GNPS) [2], для подавляющего большинства из них до сих пор неизвестно вещество, породившее спектр. Поэтому возникает задача идентификации — нахождения в базе данных веществ того ППС, которое сгенерирова­ло определённый масс-спектр. Из-за особенностей строения пептидных природных соединений идентификация их спектров значительно труднее традиционной идентификации белков и пеп­тидов в протеомике. В частности, классические инструменты из протеомики не применимы в этой задаче.
Нестандартное строение лишь одна из двух основных трудностей идентификации пеп­тидных природных соединений. Во многих случаях вещество, породившее спектр, отсутствует в базе данных, тогда как, например, с одной изменённой или отсутствующей аминокислотой - присутствует. Задача идентификации по масс-спектру неизвестного ППС из его известных ва­риантов называется вариативной идентификацией, в отличие от стандартной идентификации, когда ППС присутствует в базе данных.
Поскольку большинство ППС образуют семейства близких по строению соединений, ва­риативная идентификация имеет решающее значение для открытия новых пептидных природ­ных соединений. Поиск вариантов известных ППС важен, так как они иногда более эффективны с клинической точки зрения, чем другие представители семейства.
Для идентификации пептидных природных соединений создано несколько алгоритмов, но качество их работы ещё далеко от идеала. Примерами таких алгоритмов являются Dereplicator [3] и VarQuest [4]. В то время, как Dereplicator разработан для стандартной идентификации, VarQuest способен производить вариативную идентификацию пептидных природных соедине­ний. Для данного масс-спектра VarQuest проводит поиск в базе данных и выдаёт список из возможных кандидатов — известных ППС, с указанием аминокислоты, модификация кото­рой может привести к ППС, породившему исходный спектр. При этом алгоритм устроен так, что способен обнаруживать только пептидные природные соединения, отличающиеся одной модификацией. Однако разнообразие ППС и их модификаций столь велико, что для многих полученных масс-спектров ещё не известно ни соединение, породившее спектр, ни один из его вариантов с одной модификацией. С другой стороны, хоть модификации и бывают весьма разнообразными, некоторые из них встречаются в природе намного чаще, чем другие. В свя­зи с этим возникает потребность расширить функциональность современных алгоритмов для вариативной идентификации ППС.
Целью данной работы является реализация алгоритма вариативной идентификации масс-спектров пептидных природных соединений с учётом двух возможных модификаций. При этом одна модификация предполагается распространённой (из небольшого списка конкретных высокочастотных модификаций), а вторая — произвольная, как это было изначально в алгорит­ме VarQuest.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе я разработал метод вариативной идентификации пептидных природных соединений по масс-спектрам с учётом двух возможных модификаций. При этом одна модифи­кация предполагается фиксированной, а вторая - произвольная. Фиксированная модификация может быть как одной из высокочастотных, так и некоторой специальной, заданной пользовате­лем в соответствии с его интересами. Метод был протестирован на 353 спектрах из базы GNPS [2] и PNPdatabase из 5 084 ППС [4].
Дополнительно был реализован подход к фильтрации кандидатов, который позволяет за­метно улучшить качество вариативной идентификации вне зависимости от числа предлагаемых модификаций. Кроме того, в целях оценки качества разработанных алгоритмов, была иссле­дована задача проверки графов на изоморфность, и для графов, соответствующих пептидным природным соединениям, придуман алгоритм с квадратичной вычислительной сложностью.
Реализованный метод позволяет идентифицировать масс-спектры ранее неизвестных пептидных соединений, которые не могли быть идентифицированы современными алгорит­мами, что, в свою очередь, ускоряет поиск новых антибиотиков, иммунодепрессантов и других лекарств.


[1] Li, J.W. & Vederas, J.C. Drug discovery and natural products: end of an era or an endless frontier? Science 325, 161-165 (2009).
[2] Wang, M. et al. Sharing and community curation of mass spectrometry data with global natural products social molecular networking. Nat. Biotechnol. 34, 828-837 (2016).
[3] Mohimani, H., Gurevich, A., Mikheenko, A. et al. Dereplication of peptidic natural products through database search of mass spectra. Nat. Chem. Biol. 13, 30-37 (2017).
[4] Gurevich, A., Mikheenko, A., Shlemov, A. et al. Increased diversity of peptidic natural products revealed by modification-tolerant database search of mass spectra. Nat. Microbiol. 3, 319-327 (2018).
[5] Mohimani, H., Kim, S. & Pevzner, P. A. A new approach to evaluating statistical significance of spectral identifications. J. Proteome Res. 12, 1560-1568 (2013).


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ