Тип работы:
Предмет:
Язык работы:


АНАЛИЗ СОЦИАЛЬНЫХ МЕДИА-РЕСУРСОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ОБРАБОТКИ ЕСТЕСТВЕННЫХ ЯЗЫКОВ ДЛЯ ПЕРЕПРОФИЛИРОВАНИЯ ЛЕКАРСТВЕННЫХ СРЕДСТВ

Работа №54744

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы73
Год сдачи2017
Стоимость5650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
225
Не подходит работа?

Узнай цену на написание


Введение 5
1 Постановка задачи 7
2 Современное состояние исследований 8
3 Извлечение упоминаний о болезнях из текстов 10
3.1 Метод на основе словарей 11
3.2 Методы машинного обучения 11
3.2.1 Линейные условные случайные поля 12
3.2.2 Рекуррентные нейронные сети 13
4 Предложенный набор признаков 19
4.1 Распределенные представления слов 20
4.2 Словари и словарные признаки 21
4.3 Кластерные представления слов 26
5 Архитектура программной реализации 28
6 Текстовая коллекция 30
6.1 Сбор данных 30
6.2 Разметка данных 31
7 Эксперименты , 33
8 Ретроспективный анализ 37
Заключение 39
Список литературы 40
Приложение


В последнее десятилетие наблюдается огромный рост в объеме хранимой и обрабатываемой информации. При этом немалая доля данной информации приходиться на крупные социальные медиа-ресурсы, такие как Facebook, Twitter и пр. Однако, в большинстве случаев данные социальных медиа¬ресурсов являются неструктурированными и трудно поддающимися анализу классическими методами. В связи с этим, часто возникают попытки извлечь из этого огромного количества данных некоторую полезную информацию. К примеру, в работе “Event Detection from Social Media Data” [1] анализировалась лента твиттера для отслеживания разного рода событий, в работе “Twitter mood predicts the stock market” [2] использовали твиттер для пред¬сказания курса акций на бирже.
В данной работе так же делается попытка извлечь полезную информацию из форумов медицинской тематики с целью выдвижения гипотез к перепро-филированию. Предлагается разбить процесс выдвижения гипотез к перепро¬филированию на 5 этапов:
1. Извлечение упоминаний о болезнях и симптомах из текстовых данных, то есть имея некоторый отзыв, необходимо извлечь из него участки текста, в которых содержится описание болезни или симптома. Так¬же предполагается извлекать названия лекарств из отзыва, однако, сам процесс извлечения названий лекарств представляет собой простой по-иск по словарю и не представляет интерес для интеллектуального анализа данных и в данной работе не будет рассматриваться.
2. Нормализация извлеченных упоминаний до медицинских терминов. На данном этапе проводиться сопоставления между извлеченными на предыдущем этапе упоминаниями болезней и симптомов, написанными непрофессиональным языком, и медицинскими терминами. То есть каждому найденному упоминанию ставится в соответствие его аналог среди медицинских терминов.
3. Анализ тональности по отношению к извлеченным упоминаниям. По-мимо определения точного медицинского термина также необходимо понять было ли упоминания в качестве положительного эффекта от лекарства или нет.
4. Извлечение отношений между упоминаниями болезней и лекарственных средств. В рамках данного этапа предполагается проводить сопоставление между положительными эффектами и лекарствами упомянутыми в отзыве. То есть необходимо определить для каждого положительного эффекта в отзыве лекарство, которое привело к этому эффекту.
5. Выдвижение гипотез к перепрофилированию. После описанных выше четырех этапов будет получен набор пар вида: лекарство - соответствующий ему положительный эффект. Сопоставив данный список с известными показанный к применению лекарственных средств: можно выдвигать гипотезы к перепрофилированию.
В данной выпускной квалификационной работе рассматривается только первый этап по перепрофилированию - извлечения упоминаний о болезнях.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В данной работе была создана система для извлечения упоминаний о болезнях из текстов на английском языке. Были протестированы такие методы машинного обучения и глубокого обучения, как условные случайные поля, двунаправленные модели LSTM и GRU. Для них были подобраны различные признаки, включая локальные признаки слова, контекстные признаки, словарные признаки, а также распределенные представления слов, основанные на word2vec, и кластерные представления слов. Была собрана неразмеченная коллекция отзывов объемом 2.6 млн. для получения векторных представлений слов. Помимо векторов слов, были составлены словари медицинских терминов. Система была протестирована на собранной и размеченной для этих целей коллекции данных.


1. Valkanas George, Gunopulos Dimitrios. Event Detection from Social Media Data. // IEEE Data Eng. Bull. — 2013. — Vol. 36, no. 3. — Pp. 51-58.
2. Bollen Johan, Mao Huina, Zeng Xiaojun. Twitter mood predicts the stock market // Journal of computational science. — 2011. — Vol. 2, no. 1. — Pp. 1-8.
3. Conditional random fields: Probabilistic models for segmenting and labeling sequence data . John Lafferty, Andrew McCallum, Fernando Pereira et al. Proceedings of the eighteenth international conference on machine learning, ICML. - Vol. 1. - 2001. - Pp. 282-289.
4. Hochreiter Sepp, Schmidhuber Jiirgen. Long short-term memory // Neural computation. — 1997. — Vol. 9, no. 8. — Pp. 1735-1780.
5. On the properties of neural machine translation: Encoder-decoder ap¬proaches / Kyunghyun Cho, Bart Van Merrienboer, Dzmitry Bahdanau, Yoshua Bcngio arXw preprint arXw:1409.1S59. — 2014.
6. Distributed representations of words and phrases and their compositionali¬ty Tomas Mikolov, Ilya Sutskever, Kai Chen et al. . Advances in neural information processing systems. — 2013. —- Pp. 3111-3119.
7. Class-based n-gram models of natural language / Peter F Brown, Peter V Des-ouza, Robert L Mercer et al. // Computational linguistics. — 1992. — Vol. 18, no. 4. — Pp. 467 -479.
8. Wong Tak-Lam, Bing Lidong, Lam Wat. Normalizing web product attributes and discovering domain ontology with minimal effort // Proceedings of the fourth ACM international conference on Web search and data mining ACM. - 2011. - Pp. 805-814.
9. Chernyshevich Maryna. IHS R&D Belarus: Cross-domain extraction of prod-uct features using conditional random fields // Proceedings of the 8th In-ternational Workshop on Semantic Evaluation (SemEval 2014). — 2014. — Pp. 309-313.
10. Choi Yejin, Cardie Claire. Hierarchical sequential learning for extracting opin-ions and their attributes // Proceedings of the ACL 2010 conference short papers / Association for Computational Linguistics. — 2010. — Pp. 269-274.
11. Jakob Niklas, Gurevych Iryna. Extracting opinion targets in a single-and cross-domain setting with conditional random fields Proceedings of the 2010 conference on empirical methods in natural language processing / Asso¬ciation for Computational Linguistics. — 2010. — Pp. 1035-1045.
12. Irsoy Ozan, Cardie Claire. Opinion Mining with Deep Recurrent Neural Net-works. // EMNLP. — 2014. — Pp. 720-728.
13. Liu Pengfei, Joty Shafiq R, Meng Helen M. Fine-grained Opinion Mining with Recurrent Neural Networks and Word Embeddings. EMNLP. — 2015. — Pp. 1433-1443.
14. Lee Hsin-Chun, Hsu Yi-Yu, Kao Hung-Yu. An enhanced CRF-based sys¬tem for disease name entity recognition and normalization on BioCreative V DNER Task // Proceedings of the Fifth BioCreative Challenge Evaluation Workshop. - 2015. - Pp. 226-233.
15. Resolution of chemical disease relations with diverse features and rules / Dingcheng Li, Naveed Afzal, Majid Rastegar Mojarad et al. // The fifth BioCreative challenge evaluation workshop. — 2015. — Pp. 280-285.
16. CHEMDNER system with mixed conditional random fields and multi-scale word clustering / Yanan Lu, Donghong Ji, Xiaoyuan Yao et al. // Journal of cheminformatics. — 2015. Vol. 7, no. 1. — P. SI.
17. Overview of the BioCi eative V chemical disease relation (CDR) task / Chih- Hsuan Wei, Yifan Peng, Robert Leaman et al. // Proceedings of the fifth BioCreative challenge evaluation workshop. — 2015. — Pp. 154-166.
18. Disease named entity recognition by combining conditional random fields and bidirectional recurrent neural networks / Qikang Wei, Tao Chen, Ruifcng Xu et al. // Database. — 2016. — Vol. 2016.
19. Jagannatha Abhyuday N, Yu Hong. Bidirectional RNN for medical event de-tection in electronic health records // Proceedings of the conference. Asso-ciation for Computational Linguistics. Noith American Chapter. Meeting / NIH Public Access. — Vol. 2016. — 2016. — P. 473.
20. Towards internet-age pharmacovigilance: extracting adverse drug reactions from user posts to health-related social networks / Robert Leaman, Lau¬ra Wojtulewicz, Ryan Sullivan et al. // Proceedings of the 2010 workshop on biomedical natural language processing / Association for Computational Linguistics. — 2010. — Pp. 117-125.
21. Identifying potential adverse effects using the web: A new approach to medical hypothesis generation . Adrian Benton, Lyle Ungar, Shawndra Hill et al. Journal of biomedical informatics. — 2011. — Vol. 44, no. 6. — Pp. 989-996.
22. Digital drug safety surveillance: monitoring pharmaceutical products in twit-ter / Clark C Freifeld, John S Brownstein, Christopher M Menone et al. Drug safety. — 2014. — Vol. 37, no. 5. — Pp. 343-350.
23. Metke-Jimenez Alejandro, Karimi Sarvnaz. Concept extraction to identify adverse drug reactions in medical forums: A comparison of algorithms arXiv preprint arXw: 150]. 06936. — 2015.
24. Baum. Leonard E, Petrie Ted. Statistical inference for probabilistic functions of finite state Markov chains // The annals of mathematical statistics. 1966. - Vol. 37, no. 6. - Pp. 1554-1563.
25. Baum Leonard E, Eagon John Alonzo et al. An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology // Bull. Amer. Math. Soc. — 1967. — Vol. 73, no. 3. - Pp. 360-363.
26. Baum Leonard E, Sell George. Growth transformations for functions on man-ifolds // Pacific Journal of Mathematics. — 1968. — Vol. 27, no. 2. Pp. 211-227.
27. A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains / Leonard E Baum, Ted Petrie, George Soules, Norman Weiss // The annals of mathematical statistics. — 1970. — Vol. 41, no. 1. - Pp. 164-171.
28. Baum Leonard E. An equality and associated maximization technique in sta-tistical estimation for probabilistic functions of Markov processes // Inequal-ities. — 1972. Vol. 3. — Pp. 1-8.
29. Okazaki Naoaki. CRFsuite: a fast implementation of Conditional Random Fields (CRFs). — 2007. http://www.chokkan.org/software/crfsuite/.
30. Elman Jeffrey L. Finding structure in time ' Cognitive science. — 1990. Vol. 14, no. 2. - Pp. 179-211.
31. Schuster Mike, Paliwal Kuldip N. Bidirectional recurrent neural networks IEEE Transactions on Signal Processing. — 1997. — Vol. 45, no. 11. — Pp. 2673-2681.
32. Graves Alex, Fernandez Santiago, Schmidhuber Jurgen. Bidirectional LSTM networks for improved phoneme classification and recognition // Artificial Neural Networks: Formal Models and Their Applications-ICANN 2005. —
2005. - Pp. 753-753.
33. Learning phrase representations using RNN encoder-decoder for statistical machine translation / Kyunghyun Cho, Bart Van Merricnbocr, Caglar Gul- cehre et al. // arXiv preprint arXiv:1406.1078. — 2014.
34. Kim Yoon. Convolutional neural networks for sentence classification ,// arXiv preprint arXiv: 1408.5882. — 2014.
35. Harris Zellig S. Distributional structure . / Word. — 1954. — Vol. 10, no. 2-3.
- Pp. 146 162.
36. Efficient estimation of word representations in vector space Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean / ' arXiv preprint arXiv:1301.3781. -
2013.
37. Rang Xin. word2vec parameter learning explained // arXiv preprint arX¬iv: ЦП. 2738. - 2014.
38. Rehurek Radim, Sojka Petr. Software framework for topic modelling with large corpora •. In Proceedings of the LREC 2010 Workshop on New Chal-lenges for NLP Frameworks / Citeseer. — 2010.
39. The unified medical language system Donald AB Lindberg, Bet¬sy L Humphreys, Alexa T McCray et al. // IMIA Yearbook. — 1993. — Pp. 41-51.
40. Smith Catherine Arnott, Stavri P Zoe. Consumer health vocabulary Con¬sumer Health Informatics. - Springer, 2005. - Pp. 122-128.
41. Pharmacovigilance from social media: mining adverse drug reaction mentions using sequence labeling with word embedding cluster features / Azadeh Nik- farjam, Abeed Sarker, Karen O’Connor et al. /,/ Journal of the American Medical Informatics Association. — 2015. P. ocu041.
42. DrugBank 4.0: shedding new light on drug metabolism / Vivian Law, Craig Knox, Yannick Djoumbou ct al. Nucleic acids research. — 2013.
- Vol. 42, no. DI. - Pp. D109I-D1097.
43. Liang Percy. Semi-supervised learning for natural language: Ph.D. thesis / Massachusetts Institute of Technology. — 2005.
44. Powers David Martin. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. — 2011.
45. Tjong Kim Sang Erik F, De Meulder Fien. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition .// Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003- Volume 4 ' Association for Computational Linguistics. — 2003. — Pp. 142- 147.
46. SentiRuEval: testing object-oriented sentiment analysis systems in Russian / Natalia Loukachevitch, Pavel Blinov, Evgeny Kotelnikov et al. // Proceedings of International Conference Dialog. — Vol. 2. — 2015. — Pp. 12-24.
47. Miftahutdinov ZSh, Tutubalina EV, A Tropsha. Identifying Disease-Related Expressions in Reviews Using Conditional Random Fields // Computational Linguistics and Intellectual TechnologiesPapers from the Annual International Conference “Dialogue” (2017). - Vol. 1. ~ 2017. - Pp. 155-167.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ