Тип работы:
Предмет:
Язык работы:


Разработка поисковой системы для базы данных MEDLINE выполняющей ранжирование результатов поиска с позиции доказательной медицины и системы критериев GRADE

Работа №75446

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы74
Год сдачи2016
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
164
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 13
Обзор литературы 17
Глава 1. Обзор алгоритмов 21
1.1. Описание применяемых алгоритмов 21
1.2. Используемые метрики качества 24
1.3. Предварительная обработка аннотаций 26
1.4. Архитектура поисковой системы 26
Глава 2. Подготовка обучающего множества 29
2.1. Подготовка обучающего множества для задачи классификации 29
2.2. Подготовка обучающего множества для задачи извлечения фактов .... 33
2.3. Генерация синтетических аннотаций при помощи модели Latent
Dirichlet Allocation 35
Глава 3. Описание модуля классификации 37
3.1. Классификация MEDLINE аннотаций по уровням доказательности .... 37
3.2. Фильтрация клинических исследований 37
3.3. Классификации аннотаций на “обзорные” и “с вмешательством” 40
3.4. Классификации аннотаций по 2 и 3 уровням доказательности 41
3.5. Классификация по подтипам медицинских вмешательств 44
Глава 4. Описание поискового модуля 46
4.1. Формирование инвертированного индекса 46
4.2. Модуль обработки запросов 48
4.3. Модуль ранжирования по уровням доказательности 48
4.4. Модуль извлечения фактов 49
Глава 5. Проведение экспериментов 50
5.1. Эксперименты с классификацией аннотаций на “обзорные” и “с
вмешательством” 50
5.2. Эксперименты с классификацией по уровням доказательности 54
5.3. Классификация по подтипам медицинских вмешательств 61
5. 4. Эксперименты с извлечением фактов 64
Заключение 68
Список литературы

На данный момент в медицинской практике активно развивается подход, именуемый доказательной медициной [1]. Данный подход требует от специалиста основываться при выборе метода лечения пациента на имеющиеся доказательства достоверности и эффективности рассматриваемого метода. Сложность применения доказательной медицины на практике заключается в оценке уровня качества и надежности уже существующих медицинских исследований. Для оценки качества медицинского исследования в доказательной медицине используется шкала, ранжирующая исследования по уровню доказательности.
Для удобного описания в дальнейшем уровней доказательности введем понятие рандомизированное контролируемое исследование (РКИ). Данное понятие описывает медицинское исследование, выполненное в соответствии с рядом требований:
1. в процессе проведения исследования формирование групп пациентов происходило случайным образом (рандомизированно);
2. в процессе проведения исследования применялись техники ослепления.
Под техникой ослепления понимается процесс, при котором пациент (группа пациентов) не знает о медицинском вмешательстве, которое получает в процессе проведения эксперимента. Под медицинским вмешательством понимается выбор подхода при лечении пациента. Стандартным примером РКИ является исследование, в котором медицинским вмешательством является разрабатываемый лекарственный препарат, а процесс ослепления заключается в том, что одной группе пациентов дают исследуемый препарат, а другой - плацебо, при этом пациенты в группах не знают о том, какой из двух препаратов они принимают. Такой способ проведения эксперимента дает более качественные и надежные результаты эксперимента.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Разработанная поисковая система основана на комбинации классификаторов, определяющих уровень доказательности аннотации и подтип медицинского вмешательства. Предсказания, полученные от классификаторов, позволяют представлять результаты поиска в матричной форме. При этом в строке, соответствующей определенному подтипу медицинского вмешательства, и в столбце, соответствующем уровню доказательности, расположены аннотации, отсортированные в порядке убывания оценки релевантности аннотации запросу. Оценка релевантности найденной аннотации запросу считается при помощи функции tf-idf. На данный момент реализованная поисковая система, ранжирующая MEDLINE аннотации по уровням доказательности тестируется медицинскими экспертами.
В процессе разработки данной системы были опубликованы результаты экспериментов, в том числе классификации MEDLINE аннотаций по подтипам медицинских вмешательств [49] и сравнение стандартных алгоритмов кластеризации с применением алгоритмов выбора признаков для задачи кластеризации MEDLINE аннотаций по подтипам медицинских вмешательств [19, 50].
В дальнейшем планируется:
1. улучшить качество работы модуля фильтрации;
2. повысить качество работы модуля классификации;
3. учитывать в алгоритме ранжирования ошибку классификаторов;
4. учитывать в алгоритме ранжирования критерии оценок GRADE;
5. улучшить качество извлечения фактов.



1. Guyatt, G., Cairns, J., Churchill, D., Cook, D., Haynes, B., Hirsh, J., Sackett, D. (1992). Evidence-based medicine: a new approach to teaching the practice of medicine. Jama, 268(17'), 2420-2425.
2. Wong, C. K., Ho, C. Y., Li, E. K., & Lam, C. W. K. (2000). Elevation of proinflammatory cytokine (IL-18, IL-17, IL-12) and Th2 cytokine (IL-4) concentrations in patients with systemic lupus erythematosus. Lupus, 9(8), 589-593.
3. G. Guyatt,G. Vist, Y. Falck-Ytter, R. Kunz, N. Magrini ,H. Schunemann for the GRADE* working group. “An emerging consensus on grading recommendations?,” (Editorial). ACP J Club, 2006, Jan-Feb;144(1):A08,PMID: 17216711.
4. G. Guyatt,G. Vist, Y. Falck-Ytter, R. Kunz, N. Magrini ,H. Schunemann for the GRADE* working group.“GRADE guidelines: 1. Introduction-GRADE evidence profiles and summary of findings tables,”Journal of Clinical Epidemiology, 2011, vol. 64, pp. 383-394, doi:10.1016/j.jclinepi.2010.04.026.
5. Fyfe, T. (2007). Turning Research Into Practice (TRIP). Journal of the Medical Library Association, 95(2), 215.
6. Ohta, T., Tsuruoka, Y., Takeuchi, J., Kim, J. D., Miyao, Y., Yakushiji, A., ... & Hara, T. (2006, July). An intelligent search engine and GUI-based efficient MEDLINE search tool based on deep syntactic parsing. In Proceedings of the COLING/ACL on Interactive presentation sessions (pp. 17-20). Association for Computational Linguistics.
7. Manning, C. D., Raghavan, P., & Schutze, H. (2008). Introduction to
information retrieval (Vol. 1, No. 1, p. 496). Cambridge: Cambridge university press.
8. Buttcher, S. Content-and-Structure Queries in an XML-based Information Retrieval System.
9. N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer. Smote: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16:341-378, 2002.
10. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty, John, ed. "Latent Dirichlet Allocation". Journal of Machine Learning Research 3 (4-5): pp. 993-1022. doi:10.1162/jmlr.2003.3.4-5.993
11. Sutton, C., & McCallum, A. (2011). An introduction to conditional random fields. Machine Learning, 4(4), 267-373.
12. S. Choi, B. Ryu, S. Yoo, and J. Choi. Combining relevancy and methodological quality into a single ranking for evidence-based medicine. Information Sciences: an International Journal, 214:76-90, December 2012.
13. S. E. Robertson and S. Walker. Okapi/keenbow at trec-8. In Proceedings The Eighth REtrieval Conference (TREC-8), pages 151-162, November 1999.
14. H. Kilicoglu, D. Demner-Fushman, T. Rindflesch, N. Wilczynski, and R. Haynes. Towards automatic recognition of scientifically rigorous clinical research evidence. Journal of the American Medical Informatics Association, 16(1):25-31, October 2009.
15. K. Veningston, R. Shanmugalakshmi, “Information Retrieval by Document Re-ranking using Term Association Graph,” Proceedings of the 2014 International Conference on Interdisciplinary Advances in Applied Computing, New York, USA, 2014 , vol. 8, Article No. 21., doi:10.1145/2660859.2660927
16. A. M. Cohen, C. E. Adams, J. M. Davis, C. Yu, P. S. Yu, W. Meng, L. Duggan, M. McDonagh, and N. R. Smalheiser. Evidence-based medicine, the essentialrole of systematic reviews, and the need for automated text mining tools. In Proceedings of the 1st ACM International Health Informatics Symposium (IHI’10), pages 376-380. ACM, November 2010.
17. K. S. Khan, R. Kunz, J. Kleijnen, and G. Antes. Fivesteps to conducting a systematic review. Journal of the Royal Society of Medicine, 96(3): 118-121, March 2003.
18. B. R ohrig, J.-B. du Prel, D. Wachtlin, and M. Blettner. Types of study in medical research. Deutsches Arzteblatt International Journal, 106(15):262-268, April 2009.
19. P. Davis-Desmond and D. Moll a. Detection of evidence in clinical research papers. In Proceedings of the Fifth Australasian Workshop on Health Informatics and Knowledge Management (HIKM ’12), volume 129, pages 13¬
20. ACM, 2012.
20. K. McKibbon, N. Wilczynski, R. Haynes, and T. Hedges. Retrieving randomized controlled trials from medline: a comparison of 38 published search filters. Health Information and Libraries Journal, 26(3):187-202, September 2009.
21. I. Yoo, X. Hu “A comprehensive comparison study of document clustering for a biomedical digital library MEDLINE,” Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, New York, USA, 2006, pp. 220-229, doi:10.1145/1141753.1141802.
22. Dobrynin, V., Balykina, Y., & Kamalov, M. (2015, October). Analysis of standard clustering algorithms for grouping MEDLINE abstracts into evidence-based medicine intervention categories. In " Stability and Control Processes" in Memory of VI Zubov (SCP), 2015 International Conference (pp. 555-557). IEEE.
23. V. Dobrynin, D. Patterson, M. Galushka, N. Rooney, “SOPHIA: An In-teractive Cluster Based Retrieval System for the OHSUMED collection,” in IEEE Trans. on Information Technology for Biomedicine, 2005, vol. 9, pp. 256-265, PMID: 16138542.
24. I. Yoo, X. Hu, Il-Y. Song, “Integration of semantic-based bipartite graph representation and mutual refinement strategy for biomedical literature clustering,” Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining , New York, USA, 2006, pp. 791-796, doi: 10.1145/1150402.1150505.
25. D. Demner-Fushman, J. Lin, “Answer extraction, semantic clustering, and extractive summarization for clinical question answering,” Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics , Stroudsburg, USA, 2006, pp. 841-848, doi: 10.3115/1220175.1220281
26. Shultz, M. (2007). Comparing test searches in PubMed and Google Scholar. JOURNAL-MEDICAL LIBRARY ASSOCIATION, 95(4), 442.
27. Anders, M. E., & Evans, D. P. (2010). Comparison of PubMed and Google Scholar literature searches. Respiratory care, 55(5), 578-583.
28. Srinivasan, P. (1996). Optimal document-indexing vocabulary for MEDLINE. Information Processing & Management, 32(5), 503-514.
29. Trieschnigg, D., Hiemstra, D., de Jong, F., & Kraaij, W. (2010, October). A cross-lingual framework for monolingual biomedical information retrieval. In Proceedings of the 19th ACM international conference on Information and knowledge management (pp. 169-178). ACM.
30. Limsopatham, N., Macdonald, C., & Ounis, I. (2013, July). Learning to combine representations for medical records search. In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval (pp. 833-836). ACM.
31. Hara, K., & Matsumoto, Y. (2007). Extracting clinical trial design information from MEDLINE abstracts. New Generation Computing, 25(3), 263-275.
32. Fiszman, M., Demner-Fushman, D., Kilicoglu, H., & Rindflesch, T. C. (2009). Automatic summarization of MEDLINE citations for evidence-based medical treatment: A topic-oriented evaluation. Journal of biomedical informatics, 42(5), 801-813.
33. S. Kaneko, A. Hayashi, N. Suematsu, K. Iwata, “Hierarchical hidden conditional random fields for information extraction,” Proceedings of the 5th international conference on Learning and Intelligent Optimization, Springer-Verlag Berlin, Heidelberg, 2011, vol. 12, pp. 191-202, doi: 10.1007/978-3-642-25566-3_14.
34. A. Hliaoutakis, K. Zervanou, E. G.M. Petrakis, E. E. Milios, “Automatic document indexing in large medical collections,” Proceedings of the international workshop on Healthcare information and knowledge management, New York, USA, 2006, vol. 8, pp. 1-8, doi:10.1145/1183568.1183570.
35. Cortes, C.; Vapnik, V. (1995). "Support-vector networks". Machine Learning 20 (3): 273. doi:10.1007/BF00994018.
36. Hsu, Chih-Wei; and Lin, Chih-Jen (2002). "A Comparison of Methods for Multiclass Support Vector Machines". IEEE Transactions on Neural Networks.
37. Boser, B. E.; Guyon, I. M.; Vapnik, V. N. (1992). "A training algorithm for
optimal margin classifiers". Proceedings of the fifth annual workshop on Computational learning theory - COLT '92. p. 144.
doi: 10.1145/130385.130401. ISBN 089791497X.
38. Manevitz, L. M., & Yousef, M. (2002). One-class SVMs for document classification. the Journal of machine Learning research, 2, 139-154.
39. Russell, Stuart; Norvig, Peter (2003) [1995]. Artificial Intelligence: A ModernApproach (2nd ed.). Prentice Hall. ISBN 978-0137903955.
40. Brzezinski, J. R. (2000). Logistic regression for classification of text documents. DePaul University, School of Computer Science, Telecommunications, and Information Systems.
41. H. He and Y. Ma. Imbalanced Learning: Foundations, Algorithms, and Applications. Wiley Publishing, 2013.
42. J. J. Rodr iguez, J. F. D lez-Pastor, and C. Garc la-Osorio. Ensembles of decision trees for imbalanced data. In Proceedings of the 10th international conference on Multiple classifier systems (MCS’11), pages 76-85. Springer-Verlag, November 2011.
43. Ho, Tin Kam (1995). Random Decision Forests (PDF). Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14-16 August 1995. pp. 278-282.
44. Breiman, Leo (2001). "Random Forests". Machine Learning 45 (1): 5-32.doi: 10.1023/A: 1010933404324.
45. Freund, Y., Schapire, R., & Abe, N. (1999). A short introduction to boosting. Journal-Japanese Society For Artificial Intelligence, 14(771-780), 1612.
46. Bergstra, J. and Bengio, Y., Random search for hyper-parameter optimization, The Journal of Machine Learning Research (2012)
47. Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology 38: 188. doi:10.1002/aris.1440380105.
48. Martin, J. H., & Jurafsky, D. (2000). Speech and language processing. International Edition.
49. Krallinger, M., Leitner, F., Rabal, O., Vazquez, M., Oyarzabal, J., & Valencia, A. (2015). CHEMDNER: The drugs and chemical names extraction challenge.
J. Cheminformatics, 7(S-1), S1.
50. Dobrynin, V., Balykina, J., Kamalov, M., Kolbin, A., Verbitskaya, E., & Kasimova, M. (2015, September). The data retrieval optimization from the perspective of evidence-based medicine. In Computer Science and Information Systems (FedCSIS), 2015 Federated Conference on (pp. 323-328). IEEE.
51. Kamalov, M., Dobrynin, V., Balykina, J., Kolbin, A., Verbitskaya, E., & Kasimova, M. (2015). Improving data retrieval quality: Evidence based medicine perspective. International Journal of Risk & Safety in Medicine, 27(s1), S106-S107.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ