Тип работы:	Предмет:	Язык работы:

Разработка поисковой системы для базы данных MEDLINE выполняющей ранжирование результатов поиска с позиции доказательной медицины и системы критериев GRADE

Работа №	131092
Тип работы	Магистерская диссертация
Предмет	информатика
Объем работы	74
Год сдачи	2016
Стоимость	4880 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	10

Не подходит работа?

Узнай цену на написание

Содержание

Введение
Постановка задачи
Обзор литературы
Глава 1. Обзор алгоритмов
1.1. Описание применяемых алгоритмов
1.2. Используемые метрики качества
1.3. Предварительная обработка аннотаций.
1.4. Архитектура поисковой системы
Глава 2. Подготовка обучающего множества
2.2. Подготовка обучающего множества для задачи извлечения фактов .... 33
2.3. Генерация синтетических аннотаций при помощи модели Latent
Dirichlet Allocation
Глава 3. Описание модуля классификации
3.1. Классификация MEDLINE аннотаций по уровням доказательности.... 37
3.2. Фильтрация клинических исследований
3.3. Классификации аннотаций на “обзорные” и “с вмешательством”........ 40
3.4. Классификации аннотаций по 2 и 3 уровням доказательности ............. 41
3.5. Классификация по подтипам медицинских вмешательств .................... 44
Глава 4. Описание поискового модуля
4.1. Формирование инвертированного индекса
4.2. Модуль обработки запросов
4.3. Модуль ранжирования по уровням доказательности
4.4. Модуль извлечения фактов
Глава 5. Проведение экспериментов
5.1. Эксперименты с классификацией аннотаций на “обзорные” и “с
вмешательством”
5.2. Эксперименты с классификацией по уровням доказательности ........... 543
5.3. Классификация по подтипам медицинских вмешательств .................... 61
5. 4. Эксперименты с извлечением фактов
Заключение
Список литературы .

Введение

На данный момент в медицинской практике активно развивается подход, именуемый доказательной медициной [1]. Данный подход требует от специалиста основываться при выборе метода лечения пациента на имеющиеся доказательства достоверности и эффективности рассматриваемого метода. Сложность применения доказательной медицины на практике заключается в оценке уровня качества и надежности уже существующих медицинских исследований. Для оценки качества медицинского исследования в доказательной медицине используется шкала, ранжирующая исследования по уровню доказательности.
Для удобного описания в дальнейшем уровней доказательности введем понятие рандомизированное контролируемое исследование (РКИ). Данное понятие описывает медицинское исследование, выполненное в соответствии с рядом требований:
1. в процессе проведения исследования формирование групп пациентов происходило случайным образом (рандомизированно);
2. в процессе проведения исследования применялись техники ослепления.
Под техникой ослепления понимается процесс, при котором пациент (группа пациентов) не знает о медицинском вмешательстве, которое получает в процессе проведения эксперимента. Под медицинским вмешательством понимается выбор подхода при лечении пациента. Стандартным примером РКИ является исследование, в котором медицинским вмешательством является разрабатываемый лекарственный препарат, а процесс ослепления заключается в том, что одной группе пациентов дают исследуемый препарат, а другой – плацебо, при этом пациенты в группах не знают о том, какой из двух препаратов они принимают. Такой способ проведения эксперимента дает более качественные и надежные результаты эксперимента.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

Разработанная поисковая система основана на комбинации классификаторов, определяющих уровень доказательности аннотации и подтип медицинского вмешательства. Предсказания, полученные от классификаторов, позволяют представлять результаты поиска в матричной форме. При этом в строке, соответствующей определенному подтипу медицинского вмешательства, и в столбце, соответствующем уровню доказательности, расположены аннотации, отсортированные в порядке убывания оценки релевантности аннотации запросу. Оценка релевантности найденной аннотации запросу считается при помощи функции tf-idf. На данный момент реализованная поисковая система, ранжирующая MEDLINE аннотации по уровням доказательности тестируется медицинскими экспертами.
В процессе разработки данной системы были опубликованы результаты экспериментов, в том числе классификации MEDLINE аннотаций по подтипам медицинских вмешательств [49] и сравнение стандартных алгоритмов кластеризации с применением алгоритмов выбора признаков для задачи кластеризации MEDLINE аннотаций по подтипам медицинских вмешательств [19, 50].
В дальнейшем планируется:
1. улучшить качество работы модуля фильтрации;
2. повысить качество работы модуля классификации;
3. учитывать в алгоритме ранжирования ошибку классификаторов;
4. учитывать в алгоритме ранжирования критерии оценок GRADE;
5. улучшить качество извлечения фактов.

Литература

1. Guyatt, G., Cairns, J., Churchill, D., Cook, D., Haynes, B., Hirsh, J., Sackett, D.
(1992). Evidence-based medicine: a new approach to teaching the practice of
medicine. Jama, 268(17), 2420-2425.
2. Wong, C. K., Ho, C. Y., Li, E. K., & Lam, C. W. K. (2000). Elevation of
proinflammatory cytokine (IL-18, IL-17, IL-12) and Th2 cytokine (IL-4)
concentrations in patients with systemic lupus erythematosus. Lupus, 9(8), 589-
593.
3. G. Guyatt,G. Vist, Y. Falck-Ytter, R. Kunz, N. Magrini ,H. Schunemann for the
GRADE* working group. “An emerging consensus on grading
recommendations?,” (Editorial). ACP J Club, 2006, Jan-Feb;144(1):A08,PMID:
17216711.
4. G. Guyatt,G. Vist, Y. Falck-Ytter, R. Kunz, N. Magrini ,H. Schunemann for the
GRADE* working group.“GRADE guidelines: 1. Introduction-GRADE
evidence profiles and summary of findings tables,”Journal of Clinical
Epidemiology, 2011, vol. 64, pp. 383-394, doi:10.1016/j.jclinepi.2010.04.026.
5. Fyfe, T. (2007). Turning Research Into Practice (TRIP). Journal of the Medical
Library Association, 95(2), 215.
6. Ohta, T., Tsuruoka, Y., Takeuchi, J., Kim, J. D., Miyao, Y., Yakushiji, A., ... &
Hara, T. (2006, July). An intelligent search engine and GUI-based efficient
MEDLINE search tool based on deep syntactic parsing. In Proceedings of the
COLING/ACL on Interactive presentation sessions (pp. 17-20). Association for
Computational Linguistics.
7. Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to
information retrieval (Vol. 1, No. 1, p. 496). Cambridge: Cambridge university
press.
8. Büttcher, S. Content-and-Structure Queries in an XML-based Information
Retrieval System.70
9. N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer. Smote:
synthetic minority over-sampling technique. Journal of Artificial Intelligence
Research, 16:341–378, 2002.
10. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). Lafferty,
John, ed. "Latent Dirichlet Allocation". Journal of Machine Learning Research
3 (4–5): pp. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993
11. Sutton, C., & McCallum, A. (2011). An introduction to conditional random
fields. Machine Learning, 4(4), 267-373.
12. S. Choi, B. Ryu, S. Yoo, and J. Choi. Combining relevancy and methodological
quality into a single ranking for evidence-based medicine. Information Sciences:
an International Journal, 214:76–90, December 2012.
13. S. E. Robertson and S. Walker. Okapi/keenbow at trec-8. In Proceedings The
Eighth REtrieval Conference (TREC-8), pages 151–162, November 1999.
14. H. Kilicoglu, D. Demner-Fushman, T. Rindflesch, N. Wilczynski, and R.
Haynes. Towards automatic recognition of scientifically rigorous clinical
research evidence. Journal of the American Medical Informatics Association,
16(1):25–31, October 2009.
15. K. Veningston, R. Shanmugalakshmi, “Information Retrieval by Document Reranking using Term Association Graph,” Proceedings of the 2014 International
Conference on Interdisciplinary Advances in Applied Computing, New York,
USA, 2014 , vol. 8, Article No. 21., doi:10.1145/2660859.2660927
16. A. M. Cohen, C. E. Adams, J. M. Davis, C. Yu, P. S. Yu, W. Meng, L. Duggan,
M. McDonagh, and N. R. Smalheiser. Evidence-based medicine, the
essentialrole of systematic reviews, and the need for automated text mining
tools. In Proceedings of the 1st ACM International Health Informatics
Symposium (IHI’10), pages 376–380. ACM, November 2010.
17. K. S. Khan, R. Kunz, J. Kleijnen, and G. Antes. Fivesteps to conducting a
systematic review. Journal of the Royal Society of Medicine, 96(3):118–121,
March 2003.71
18. B. R ̈ohrig, J.-B. du Prel, D. Wachtlin, and M. Blettner. Types of study in
medical research. ̈Deutsches Arzteblatt International Journal, 106(15):262–268,
April 2009.
19. P. Davis-Desmond and D. Moll ́a. Detection of evidence in clinical research
papers. In Proceedings of the Fifth Australasian Workshop on Health
Informatics and Knowledge Management (HIKM ’12), volume 129, pages 13–
20. ACM, 2012.
20. K. McKibbon, N. Wilczynski, R. Haynes, and T. Hedges. Retrieving randomized
controlled trials from medline: a comparison of 38 published search filters.
Health Information and Libraries Journal, 26(3):187–202, September 2009.
21. I. Yoo, X. Hu “A comprehensive comparison study of document clustering for a
biomedical digital library MEDLINE,” Proceedings of the 6th ACM/IEEE-CS
joint conference on Digital libraries, New York, USA, 2006, pp. 220-229,
doi:10.1145/1141753.1141802.
22. Dobrynin, V., Balykina, Y., & Kamalov, M. (2015, October). Analysis of
standard clustering algorithms for grouping MEDLINE abstracts into evidencebased medicine intervention categories. In " Stability and Control Processes" in
Memory of VI Zubov (SCP), 2015 International Conference (pp. 555-557).
IEEE.
23. V. Dobrynin, D. Patterson, M. Galushka, N. Rooney, “SOPHIA: An In-teractive
Cluster Based Retrieval System for the OHSUMED collection,” in IEEE Trans.
on Information Technology for Biomedicine, 2005, vol. 9, pp. 256-265, PMID:
16138542.
24. I. Yoo, X. Hu, Il-Y. Song, “Integration of semantic-based bipartite graph
representation and mutual refinement strategy for biomedical literature
clustering,” Proceedings of the 12th ACM SIGKDD international conference on
Knowledge discovery and data mining , New York, USA, 2006, pp. 791-796,
doi: 10.1145/1150402.1150505.
25. D. Demner-Fushman, J. Lin, “Answer extraction, semantic clustering, and
extractive summarization for clinical question answering,” Proceedings of the72
21st International Conference on Computational Linguistics and the 44th annual
meeting of the Association for Computational Linguistics , Stroudsburg, USA,
2006, pp. 841-848, doi: 10.3115/1220175.1220281
26. Shultz, M. (2007). Comparing test searches in PubMed and Google Scholar.
JOURNAL-MEDICAL LIBRARY ASSOCIATION, 95(4), 442.
27. Anders, M. E., & Evans, D. P. (2010). Comparison of PubMed and Google
Scholar literature searches. Respiratory care, 55(5), 578-583.
28. Srinivasan, P. (1996). Optimal document-indexing vocabulary for MEDLINE.
Information Processing & Management, 32(5), 503-514.
29. Trieschnigg, D., Hiemstra, D., de Jong, F., & Kraaij, W. (2010, October). A
cross-lingual framework for monolingual biomedical information retrieval. In
Proceedings of the 19th ACM international conference on Information and
knowledge management (pp. 169-178). ACM.
30. Limsopatham, N., Macdonald, C., & Ounis, I. (2013, July). Learning to combine
representations for medical records search. In Proceedings of the 36th
international ACM SIGIR conference on Research and development in
information retrieval (pp. 833-836). ACM.
31. Hara, K., & Matsumoto, Y. (2007). Extracting clinical trial design information
from MEDLINE abstracts. New Generation Computing, 25(3), 263-275.
32. Fiszman, M., Demner-Fushman, D., Kilicoglu, H., & Rindflesch, T. C. (2009).
Automatic summarization of MEDLINE citations for evidence-based medical
treatment: A topic-oriented evaluation. Journal of biomedical informatics, 42(5),
801-813.
33. S. Kaneko, A. Hayashi, N. Suematsu, K. Iwata, “Hierarchical hidden conditional
random fields for information extraction,” Proceedings of the 5th international
conference on Learning and Intelligent Optimization, Springer-Verlag Berlin,
Heidelberg, 2011, vol. 12, pp. 191-202, doi: 10.1007/978-3-642-25566-3_14.
34. A. Hliaoutakis, K. Zervanou, E. G.M. Petrakis, E. E. Milios, “Automatic
document indexing in large medical collections,” Proceedings of the73
international workshop on Healthcare information and knowledge management,
New York, USA, 2006, vol. 8, pp. 1-8, doi:10.1145/1183568.1183570.
35. Cortes, C.; Vapnik, V. (1995). "Support-vector networks". Machine Learning 20
(3): 273. doi:10.1007/BF00994018.
36. Hsu, Chih-Wei; and Lin, Chih-Jen (2002). "A Comparison of Methods for
Multiclass Support Vector Machines". IEEE Transactions on Neural Networks.
37. Boser, B. E.; Guyon, I. M.; Vapnik, V. N. (1992). "A training algorithm for
optimal margin classifiers". Proceedings of the fifth annual workshop on
Computational learning theory – COLT '92. p. 144.
doi:10.1145/130385.130401. ISBN 089791497X.
38. Manevitz, L. M., & Yousef, M. (2002). One-class SVMs for document
classification. the Journal of machine Learning research, 2, 139-154.
39. Russell, Stuart; Norvig, Peter (2003) [1995]. Artificial Intelligence: A Modern
Approach (2nd ed.). Prentice Hall. ISBN 978-0137903955.
40. Brzezinski, J. R. (2000). Logistic regression for classification of text documents.
DePaul University, School of Computer Science, Telecommunications, and
Information Systems.
41. H. He and Y. Ma. Imbalanced Learning: Foundations, Algorithms, and
Applications. Wiley Publishing, 2013.
42. J. J. Rodr ́ıguez, J. F. D ́ıez-Pastor, and C. Garc ́ıa-Osorio. Ensembles of decision
trees for imbalanced data. In Proceedings of the 10th international conference on
Multiple classifier systems (MCS’11), pages 76–85. Springer-Verlag,
November 2011.
43. Ho, Tin Kam (1995). Random Decision Forests (PDF). Proceedings of the 3rd
International Conference on Document Analysis and Recognition, Montreal,
QC, 14–16 August 1995. pp. 278–282.
44. Breiman, Leo (2001). "Random Forests". Machine Learning 45 (1): 5–32.
doi:10.1023/A:1010933404324.
45. Freund, Y., Schapire, R., & Abe, N. (1999). A short introduction to boosting.
Journal-Japanese Society For Artificial Intelligence, 14(771-780), 1612.74
46. Bergstra, J. and Bengio, Y., Random search for hyper-parameter optimization,
The Journal of Machine Learning Research (2012)
47. Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of
Information Science and Technology 38: 188. doi:10.1002/aris.1440380105.
48. Martin, J. H., & Jurafsky, D. (2000). Speech and language processing.
International Edition.
49. Krallinger, M., Leitner, F., Rabal, O., Vazquez, M., Oyarzabal, J., & Valencia,
A. (2015). CHEMDNER: The drugs and chemical names extraction challenge.
J. Cheminformatics, 7(S-1), S1.
50. Dobrynin, V., Balykina, J., Kamalov, M., Kolbin, A., Verbitskaya, E., &
Kasimova, M. (2015, September). The data retrieval optimization from the
perspective of evidence-based medicine. In Computer Science and Information
Systems (FedCSIS), 2015 Federated Conference on (pp. 323-328). IEEE.
51. Kamalov, M., Dobrynin, V., Balykina, J., Kolbin, A., Verbitskaya, E., &
Kasimova, M. (2015). Improving data retrieval quality: Evidence based
medicine perspective. International Journal of Risk & Safety in Medicine,
27(s1), S106-S107