Тип работы:
Предмет:
Язык работы:


Приложение методов глубокого обучения к анализу белковых молекул Выпускная квалификационная работа по направлению подготовки “биология”

Работа №126630

Тип работы

Дипломные работы, ВКР

Предмет

биология

Объем работы23
Год сдачи2018
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
18
Не подходит работа?

Узнай цену на написание


Введение 3
2 Обзор литературы 5
3 Материалы и методы 10
3.1 Используемые данные 10
3.2 Предобработка данных 10
3.3 Архитектура модели 13
3.4 Метод оценки работы модели 14
4 Результаты 15
4.1 Выбор гиперпараметров 15
4.2 Эффективность модели 16
4.3 Доступность модели 16
5 Обсуждение 17
6 Выводы 18

Из всех типов пост-трансляционных модификаций (ПТМ) изучению фосфорилирования было отведено наибольшее внимание. Фосфорилирование играет ключевую роль
в качестве “молекулярного переключателя” во множестве типов регуляторных процессов в эукариотической клетке [1–3].
Для экспериментального изучения фосфорилирования и других ПТМ за последние
три десятилетия учеными было разработано множество методов. Их можно разделить
на две группы: низкопропускные и высокопропускные [4]. Объектом исследования низкопропускных методов является, как правило, один или несколько интересующих исследователя белков, в то время как высокопропускные методы, такие как тандемная
масс-спектрометрия, позволяют проводить изучение ПТМ, а в частности, фосфорилирования полноценных клеточных протеомов.
В результате широкомасштабного использования высокопропускных экспериментальных методик за последние годы было накоплено большое количество фосфопротеомных данных. Последние сегодня доступны для широкому кругу пользователей посредством открытых баз данных в сети Интернет. Несмотря на то, что большинство данных были вручную извлечены экспертами из соответствующих научных статей, лишь
немногие из баз данных в достаточной мере обеспечивают свое содержимое сопроводительной информацией, касающейся экспериментального базиса, использованного для
обнаружения того или иного сайта ПТМ. Частое отсутствие подобных аннотаций в
совокупности с аккумуляцей экспериментальных результатов, значительно отягощает
оценку качества записей. Особенно явно это проявляется в случае использования вычислительных методов идентификации сайтов ПТМ, так как подобные методы базируются
в подавляющем большинстве случаев на алгоритмах машинного обучения, эффективность которых напрямую зависит от качества выборки, используемой для обучения
модели.
Точное предсказание сайтов ПТМ при помощи алгоритмов машинного обучения является крайне желаемой альтернативой экспериментальным техникам по причине дешевизны, доступности, легкости в использовании. На протяжении последних двадцати
лет множество усилий было затрачено на создание подобных моделей, и сегодня на сайте Omictools.org [5] предлагается более пятидесяти моделей, подходящих для задачи
предсказания сайтов фосфорилирования. Тем не менее, в данном списке отсутствует
предиктор, способный к киназо- и таксоно- неспецифичным предсказаниям. Помимо
этого, зачастую авторы прекращают поддержку моделей по истечении нескольких лет
после публикации, что делает работу с ними попросту невозможной. В силу того, что
масштаб исследований со временем увеличивается, необходимой является
и способность предиктора работать с большими массивами данных.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Задача точного определения сайтов фосфорилирования вычислительными методами не является простой сама по себе и при этом значительно осложняется отсутствием
возможности введения строгих критериев на этапе формирования выборки. Базы данных продолжают интенсивно расти, поэтому введение подробных сопроводительных
аннотаций в значительной мере повысило бы эффективность создаваемых вычислительных моделей, ориентированных на предсказания сайтов пост-трансляционных модификаций, что было успешно продемонстрировано в данной работе.
Существующие вычислительные методы предсказания сайтов фосфорилирования
на сегодняшний момент не отличаются высокой точностью работы, а также по ряду
причин, подчеркнутых в данной работе, являются устаревшими. Несмотря на многочисленные успешные применения методов глубокого обучения в различных областях
вычислительной биологии, поиски актуальных на сегодняшний момент предикторов,
основанных на данных методах, не увенчались успехом. По этой причине была предложена гибридная модель, основанная на новейших результатах в области глубокого
обучения - конволюционных и рекуррентных нейронных сетях. Созданную модель отличает ряд важных особенностей, среди которых неспецифичность по отношению к
определенной группе киназ или филогенетической группе, высокая вычислительная
эффективность, простота в использовании, открытость и модифицируемость. Её пре-
18восходство было продемонстрировано путем сравнения её с существующими решениями
на независимых тестовых выборках, сформированных на основе наиболее свежих экспериментальных данных. Это же, в свою очередь, показывает высокую эффективность
примененных методов, что позволяет предположить плодотворное их применение для
создания моделей, ориентированных на предсказания и других сайтов ПТМ. Отдельно стоит отметить способность нейронных сетей обучаться без выделения каких-либо
репрезентативных особенностей в тренировочных выборках. Созданная модель была
дополнена интерфейсом в виде командной строки, а весь сопутствующий программный код и созданные выборки данных были опубликованы в открытом репозитории на
ресурсе GitHub.


[1] Tejaswita M. Karve and Amrita K. Cheema. Small Changes Huge Impact: The Role of Protein Posttranslational Modifications in Cellular Homeostasis and Disease. Journal of Amino Acids, 2011:1-13, 2011.
[2] Fatima Ardito, Michele Giuliani, Donatella Perrone, Giuseppe Troiano, and Lorenzo Lo Muzio. The crucial role of protein phosphorylation in cell signaling and its use as targeted therapy (Review). International Journal of Molecular Medicine, pages 271-280, 2017.
[3] Philip Cohen. The role of protein phosphorylation in human health and disease: Delivered on June 30th 2001 at the FEBS meeting in Lisbon. European Journal of Biochemistry, 268(19):5001-5010, 2001.
[4] Susanne B. Breitkopf Asara and John M. Determining in vivo Phosphorylation Sites using Mass Spectrometry. NIH Public Access, pages 1-27, 2013.
[5] Omictools.org. https://omictools.com/phosphorylation-sites-category.
Accessed: 2017-10-17.
[6] Martina Audagnotto and Matteo Dal Peraro. Protein post-translational modifications: In silico prediction tools and molecular modeling. Computational and Structural Biotechnology Journal, 15:307-319, 2017.
[7] Yu Xue, Jian Ren, Xinjiao Gao, Changjiang Jin, Longping Wen, and Xuebiao Yao. GPS 2.0, a Tool to Predict Kinase-specific Phosphorylation Sites in Hierarchy. Molecular & Cellular Proteomics, 7(9):1598-1608, 2008.
[8] Jianjiong Gao, Jay J. Thelen, A. Keith Dunker, and Dong Xu. Musite, a Tool for Global Prediction of General and Kinase-specific Phosphorylation Sites. Molecular & Cellular Proteomics, 9(12):2586-2600, 2010.
[9] Brett Trost and Anthony Kusalik. Computational phosphorylation site prediction in plants using random forests and organism-specific instance weights. Bioinformatics, 29(6):686-694, 2013.
[10] Leyi Wei, Pengwei Xing, Jijun Tang, and Quan Zou. PhosPred-RF: a novel sequence¬based predictor for phosphorylation sites using sequential information only. IEEE Transactions on NanoBioscience, 1241(c):1-1, 2017.
[11] Indrajit Saha, Ujjwal Maulik, Sanghamitra Bandyopadhyay, and Dariusz Plewczynski. Fuzzy clustering of physicochemical and biochemical properties of amino Acids. Amino Acids, 43(2):583-594, 2012.
[12] Nikolaj Blom, Steen Gammeltoft, and S0ren Brunak. Sequence and structure-based prediction of eukaryotic protein phosphorylation sites. Journal of Molecular Biology, 294(5):1351-1362, 1999.
[13] A.K. Biswas, N. Noman, and A.R. Sikder. Machine learning approach to predict protein phosphorylation sites by incorporating evolutionary information. BMC Bioinformatics, 11, 2010.
[14] Yongchao Dou, Bo Yao, and Chi Zhang. PhosphoSVM: Prediction of phosphorylation sites by integrating various protein sequence attributes with a support vector machine. Amino Acids, 46(6):1459-1469, 2014.
[15] Wang-Ren Qiu, Xuan Xiao, Zhao-Chun Xu, Kuo-Chen Chou, Wang-Ren Qiu, Xuan Xiao, Zhao-Chun Xu, and Kuo-Chen Chou. iPhos-PseEn: Identifying phosphorylation sites in proteins by fusing different pseudo components into an ensemble classifier. Oncotarget, 5(0), 2016.
[16] Khaled Fawagreh, Mohamed Medhat Gaber, and Eyad Elyan. Random forests: From early developments to recent advancements. Systems Science and Control Engineering, 2(1):602-609, 2014.
[17] Shu Yun Huang, Shao Ping Shi, Jian Ding Qiu, and Ming Chu Liu. Using support vector machines to identify protein phosphorylation sites in viruses. Journal of Molecular Graphics and Modelling, 56:84-90, 2015.
[18] Hamid D. Ismail, Ahoi Jones, Jung H. Kim, Robert H. Newman, and Dukka B. Kc. RF-Phos: A Novel General Phosphorylation Site Prediction Tool Based on Random Forest. BioMed Research International, 2016, 2016.
[19] Sheng Wang, Siqi Sun, Zhen Li, Renyu Zhang, and Jinbo Xu. Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model, volume 13. 2017.
[20] Chao Fang, Yi Shang, and Dong Xu. MUFold-SS: Protein Secondary Structure Prediction Using Deep Inception-Inside-Inception Networks. pages 2-7, 2017.
[21] Akosua Busia, Jasmine Collins, and Navdeep Jaitly. Protein Secondary Structure Prediction Using Deep Multi-scale Convolutional Neural Networks and Next-Step Conditioning. pages 1-10, 2016.
[22] Evangelia I Zacharaki Corresp, Corresponding Author, and Evangelia I Zacharaki. Prediction of protein function using a deep convolutional neural network ensemble.
[23] Nikolaus Kriegeskorte. Deep Neural Networks: A New Framework for Modeling Biological Vision and Brain Information Processing. Annual Review of Vision Science, 1(1):417-446, 2015.
[24] S0ren Kaae S0nderby, Casper Kaae S0nderby, Henrik Nielsen, and Ole Winther. Convolutional LSTM networks for subcellular localization of proteins. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 9199:68-80, 2015.
[25] Peter V. Hornbeck, Jon M. Kornhauser, Sasha Tkachev, Bin Zhang, Elzbieta Skrzypek, Beth Murray, Vaughan Latham, and Michael Sullivan. PhosphoSitePlus: A comprehensive resource for investigating the structure and function of experimentally determined post-translational modifications in man and mouse. Nucleic Acids Research, 40(D1):261-270, 2012.
[26] Holger Dinkel, Claudia Chica, Allegra Via, Cathryn M. Gould, Lars J. Jensen, Toby J. Gibson, and Francesca Diella. Phospho.ELM: A database of phosphorylation sites¬update 2011. Nucleic Acids Research, 39(SUPPL. 1):261-267, 2011.
[27] H. Cheng, W. Deng, Y. Wang, J. Ren, Z. Liu, and Y. Xue. dbPPT: a comprehensive database of protein phosphorylation in plants. Database, 2014(0):bau121-bau121, 2014.
[28] Zhicheng Pan, Bangshan Wang, Ying Zhang, Yongbo Wang, Shahid Ullah, Ren Jian, Zexian Liu, and Yu Xue. dbPSP: a curated database for protein phosphorylation sites in prokaryotes. Database : the journal of biological databases and curation, 2015(September 2017):bav031, 2015.
[29] Shahid Ullah, Shaofeng Lin, Yang Xu, Wankun Deng, Lili Ma, Ying Zhang, Zexian Liu, and Yu Xue. dbPAF: an integrative database of protein phosphorylation in animals and fungi. Scientific reports, 6(March):23534, 2016.
[30] Cellsignal.com. https://www.cellsignal.com.
[31] Weizhong Li and Adam Godzik. Cd-hit: A fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics, 22(13):1658-1659, 2006.
[32] Sepp Hochreiter and J Urgen Schmidhuber. Long Short-Term Memory. Neural Computation, 9(8):1735-1780, 1997.
[33] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. pages 1-9, 2014.
[34] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research, 15:1929-1958, 2014.
[35] Xavier Glorot and Yoshua Bengio. Understanding the difficulty of training deep feedforward neural networks. Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS), 9:249-256, 2010.
[36] Diederik P. Kingma and Jimmy Ba. Adam: A Method for Stochastic Optimization. pages 1-15, 2014.
[37] Francois Chollet et al. Keras. https://github.com/fchollet/keras, 2015.
[38] Martin Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S. Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian Goodfellow, Andrew Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Jozefowicz, Lukasz Kaiser, Manjunath Kudlur, Josh Levenberg, Dan Mane, Rajat Monga, Sherry Moore, Derek Murray, Chris Olah, Mike Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda Viegas, Oriol Vinyals, Pete Warden, Martin Wattenberg, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org.
[39] Github.com. https://github.com/skoblov-lab/KUPPNet.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ