Метод Монте-Карло по схеме марковской цепи для оценки вероятности редких событий в задачах биоинформатики,

Содержание

Введение
Глава
1. Постановка задачи
Модель фрагментации пептидных соединений
Вероятностная модель спектра пептида

Метод Монте-Карло и метод существенной выборки
Метод Метрополиса-Гастингса
2.3. Описание алгоритма построения pis
10
Глава 3. Особенности реализации построения pis
3.1. Оценка весовой функции по методу Ванга-Ландау
3.2. Выбор переходной плотности у
Глава 4.
Оценка дисперсии и критерий остановки
14
4.1. Способы вычисления дисперсии
14
4.2. Варианты критерия остановки
15
4.3. Теоретические аспекты в рамках исследуемой задачи
16
4.3.1. Дискретный случай
17
4.3.2. Сведения из теории марковских цепей
18
4.3.3. Непрерывный случай
20
Глава 5. Численные результаты
21
5.1. Одиночные идентификации
21
5.2. База данных GNPS
24
Заключение
26
Список литературы
27

Введение

Пептидные соединения (пептиды) — это вещества, молекулы которых содержат два
и более остатков аминокислот, соединенных в цепь пептидными связями. Существуют
живые организмы, способные продуцировать природные пептидные соединения, оказывающие сильное подавляющее действие на рост и размножение бактерий – натуральные антибиотики. В связи с проблемой резистентности существующих антибиотиков
к грамм-положительным бактериям и недавними успехами, связанными с открытием
теиксобактина – антибиотика, активного в отношении данных бактерий, задача идентификации природных пептидных соединений вновь становится задачей высокой важности в сфере протеомики. Она заключается в следующем: для исследуемого образца в
базе необходимо найти наиболее близкое по структуре к нему пептидное соединение. В
связи с тем, что схожесть структур во многих случаях влечет за собой схожесть свойств
соединений, решение данной задачи помогает в исследовании новых образцов.
Самым распространенным инструментом для идентификации пептидных соединений является масс-спектрометрия: исследуемый образец режется на части при помощи
химических реакций, после чего измеряется масса каждого полученного фрагмента,
и в дальнейшем исследуется полученный массив масс, который называют спектром
[1]. Тогда задача идентификации пептидного соединения сводится к тому, чтобы найти
наиболее похожий спектр теоретического пептида из базы на полученный по образцу
экспериментальный спектр и оценить эту похожесть.
Для случая пептидных соединений линейной структуры, существует метод MSGF+ [2], решающий задачу, используя комбинаторные методы. Однако в случае природных пептидных соединений, зачастую имеющих сложную нелинейную структуру,
метод MS-GF+ не может быть применен, и задача решается только вероятностными
подходами.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

Таким образом, в данной работе был предложен алгоритм оценки вероятности
(1.3) для пары («Экспериментальный спектр», «Теоретический пептид»). Был продемонстрирован способ оценки ее дисперсии и предложен критерий остановки моделирования траектории марковской цепи, чтобы ее длины было достаточно для построения
оценки заданной точности.
Корректность работы полученного алгоритма была показана на наборе пептидов
различной структуры и проведено сравнение с существующим методом MS-DPR. Согласно результатам, полученный метод имеет меньший FDR для низких порогов значимости, что доказывает применимость метода в задачах биоинформатики.

Литература

Cycloquest: Identihcation of cyclopeptides via database search of their mass spectra against genome databases / H. Mohimani, W. Liu, J. Mylne et al. // Journal of Proteome Research. — 2011. — Vol. 10.
2. Kim S., Pevzner P. MS-GF+ makes progress towards a universal database search tool for proteomics // Nature Communications. — 2014.—Vol. 5.
3. Mohimani H., Kim S., Pevzner P. A. A new approach to evaluating statistical signihcance of spectral identihcations //J. Proteome Res. — 2013. —Vol. 12, no. 4. — P. 1560-1568.
4. David D., Minh L., Minh D. Understanding the Hastings algorithm // Communications in Statistics - Simulation and Computation. — 2014.—Vol. 44.
5. Harris T. E. The existence of stationary measures for certain Markov processes. // In Proc. 3rd Berkeley Symp. Math. Statist. Probab.—Vol. 2. — California Press, Berkeley, 1956. — P. 113 - 124.
6. Iba Y., Saito N. D., Kitajima A. Multicanonical MCMC for sampling rare events: An illustrative review. // Annals of the Institute of Statistical Mathematics.
Vol. 66. —P. 611-645.
P. 113
2014.
2013.
2014.
Vol. 12, no. 4.
P. 332-349.
Vol. 2.
2014.
7. Tierney L. Markov chains for exploring posterior distributions // Ann. Statist.
1994.—Vol. 22, no. 4. —P. 1701-1728.
Vol. 22, no. 4.
8. Flegal J., Jones G. Batch means and spectral variance estimators in Markov chain Monte Carlo // Annals of Statistics. — 2010. — Vol. 38.
9. Wu W. Recursive estimation of time-average variance constants // The Annals of Ap plied Probability. — 2009. — Vol. 19.
10. Chan K., Chun Y. New recursive estimators of the time-average variance constants // Statistics and Computing. — 2016. — Vol. 26.
11. Flegal J. M., Gong L. Relative hxed-width stopping rules for Markov chain Monte Carlo simulations // Statistica Sinica. — 2015. — Vol. 25.
12. Jones G. L. On the Markov chain central limit theorem // Probability Surveys.
2004.—Vol. 1. —P. 299-320.
Vol. 1.
2009.
2010.
2016.
P. 1034-1070.
P. 1529-1552.
P. 609-627.
2015.
P. 655-676.
13. Mengersen K. L., Tweedie R. L. Rates of convergence of the Hastings and Metropolis algorithms // Ann. Stat. — 1996.—Vol. 24. — P. 101-121.

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Метод Монте-Карло по схеме марковской цепи для оценки вероятности редких событий в задачах биоинформатики

Тип работы

Дипломные работы, ВКР

Предмет

информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

23

Логин
Пароль


Тип работы:	Предмет:	Язык работы: