Тип работы:
Предмет:
Язык работы:


ИЗВЛЕЧЕНИЕ БИОМЕДИЦИНСКИХ СУЩНОСТЕЙ НА ОСНОВЕ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ И ПЕРЕНОСА ОБУЧЕНИЯ

Работа №41282

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы34
Год сдачи2019
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
425
Не подходит работа?

Узнай цену на написание


Глоссарий 3
Введение 5
1. Обзор предметной области 7
1.1. Задача извлечения именованных сущностей 7
1.2. Разметка текста 7
1.3. CoNLL формат 9
1.4. Векторное представление слов 10
1.5. Методы оценки систем извелечения именованных сущностей . 13
2. Исследование и построение решения 15
2.1. Машинное обучение 15
2.1.1. Традиционные и рекуррентные нейронные сети 15
2.1.2. Проблема долговременных зависимостей 16
2.1.3. Сети LSTM 17
2.2. Перенос обучения 18
3. Описание практической части 21
3.1. Установка библиотеки Saber 21
3.1.1. Подготовка информации 22
3.1.2. Параметры файлов конфигурации 24
3.1.3. Просчёт вычислений на графическом процессоре 25
3.2. Эксперименты 26
3.2.1. Эксперименты на отдельных коллекциях 26
3.2.2. С переносом обучения 27
3.2.3. Оценка полученных результатов 28
Заключение 32
Список литературы 33

За счёт ежегодного прироста в увеличении количества информации по данным доклада DC «Эра данных 2025» [16] становится всё сложнее и сложнее обрабатывать получаемую информацию. Так как большая часть этой информации представлена в текстовой форме, задачи по поиску в неструктурированном тексте и последующий анализ данных приобретают всё более важное значенние.
Извлечение именованных сущностей является типичной подзадачей извлечения информации, которая в свою очередь является разновидностью информационного поиска и осуществляет обработку текстов на естественном языке. Извлечение сущностей представляет собой нахождение границ именных сущностей в неструктурированном тексте и их классификация по заранее известным группам, чаще всего по одной, и была впервые поставлена на конференции Message Understanding Conference (MUC) в 1996 [7]. Позднее она рассматривалась на конференциях Conference on Computational Natural Language Learning (CoNLL) [17].
Сегодня можно выделить два подхода к решению данной задачи:
• Составление правил и эвристик, а затем преобразование их в алгоритмы.
• Машинное обучение на наборе заранее размеченных документов.
Данная работа посвящена обзору и использованию методов машинного
обучения для выделения именованных сущностей из биомедицинских текстов на английском языке. Эксперименты проводятся на опубликованных в свободном доступе корпусах для задачи извлечения именованных сущностей.
Работа состоит из 3 разделов. Первый посвящен обзору предметной области. Второй раздел представляет собой описание исследования и методологического построения основ для решения задачи выделения именованных сущностей. Третий раздел описывает практическую часть работы и полученные результаты. Заключение включает основные достижения и план дальнейшей работы.
Цель работы. Исследование модели рекуррентной нейронной сети в контексте задачи извлечения именованных сущностей с переносом обучения.
Задачи работы:
• Исследовать предметную область и сформулировать стратегии обучения
• Установить и настроить библиотеку Saber [5]
• Подготовить данные в формате CoNLL
• Провести эксперименты без предварительной настройке весов
• Повторить эксперименты, используя модель, обученную на корпусе CADEC, для переноса обучения
• Проанализировать полученные результаты
Объект исследования. Англоязычные неструктироврованные коллекции биомедицинских текстов на естественном языке.
Предмет исследования. Задача выделения именных сущностей из неструктурированных текстов на естественном языке.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы была исследована задача извлечения биомедецинских сущностей из неструктурированных текстов на естественном языке (английском) на основе рекуррентной нейронной сети и переноса обучения. Была изучена предметная область, сформулированы стратегии обучения, а затем проведены множественные эксперименты с различными параметрами настройки на нескольких корпусах, находящихся в свободном доступе. Анализ результатов показал правильность стратегий обучения, выбранных на этапе исследования и построения решения данной задачи.
Таким образом, все цели работы были выполнены: была исследована предметная область и сформулированы стратегии обучения, была установлена и настроена библиотека Saber, были подготовлены данные в формате CoNLL, было обучено несколько моделей с использованием разных стратегий обучения, полученные данные проанализированы.


1. Bader G. D. https://baderlab.github.io/saber/installation/. —2019.
2. Bohnet B. Very high accuracy and fast dependency parsing is not a contradiction // Proceedings of the 23rd international conference on computational linguistics. — Association for Computational Linguistics. 2010. — С. 89—97.
3. Cadec: A corpus of adverse drug event annotations / S. Karimi [и др.] // Journal of biomedical informatics. — 2015. — Т 55. — С. 73—81.
4. Crichton G. https://github.com/cambridgeltl/MTL-Bioinformatics- 2016/tree/master/data. —2019.
5. Giorgi J., Bader G. Towards reliable named entity recognition in the biomedical domain // BioRxiv. — 2019. — С. 526244.
6. Goldberg Y., Levy O. word2vec Explained: deriving Mikolov et al.’s negativesampling word-embedding method // arXiv preprint arXiv:1402.3722. — 2014.
7. Grishman R., Sundheim B. Message understanding conference-6: A brief history // COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics. Т 1. — 1996.
8. Hochreiter S. Untersuchungen zu dynamischen neuronalen Netzen // Diploma, Technische Universitat Munchen. — 1991. — Т. 91, № 1.
9. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — Т. 9, № 8. — С. 1735—1780.
10. Karpathy A. The unreasonable effectiveness of recurrent neural networks // Andrej Karpathy blog. — 2015. — Т 21.
11. Krishnan V., Ganapathy V Named Entity Recognition. — 2005.
12. Learning long-term dependencies with gradient descent is difficult / Y. Bengio, P. Simard, P. Frasconi [и др.] // IEEE transactions on neural networks. — 1994. — Т 5, № 2. — С. 157—166.
13. Marginal Likelihood Training of BiLSTM-CRF for Biomedical Named Entity Recognition from Disjoint Label Sets / N. Greenberg [и др.] // Proceedings of
the 2018 Conference on Empirical Methods in Natural Language Processing. — 2018. — С. 2824—2829.
14. NVIDIA CUDA software and GPU parallel computing architecture / D. Kirk [и др.] // ISMM. Т 7. — 2007. — С. 103—104.
15. Ramshaw L. A., Marcus M. P. Text chunking using transformation-based learning // Natural language processing using very large corpora. — Springer, 1999. — С. 157—176.
16. Reinsel D., Gantz J., Rydning J. Data age 2025: The evolution of data to life- critical // IDC White Paper. — 2017. — С. 1—25.
17. Sang E. F., De Meulder F. Introduction to the CoNLL-2003 shared
task: Language-independent named entity recognition // arXiv preprint cs/0306050. — 2003.
18. Sarkar D., Bali R., Ghosh T. Hands-On Transfer Learning with Python:
Implement advanced deep learning and neural network models using
TensorFlow and Keras. — Packt Publishing Ltd, 2018.
19. Starobinski J.Words upon words: The anagrams of Ferdinand de Saussure. — Yale University Press New Haven, 1979.
20. The PsyTAR dataset: From patients generated narratives to a corpus of adverse drug events and effectiveness of psychiatric medications / M. Zolnoori [и др.] // Data in brief. — 2019. — Т 24. — С. 103838.
21. Weinshall D., Cohen G., Amir D. Curriculum learning by transfer
learning: Theory and experiments with deep networks // arXiv preprint arXiv:1802.03796. — 2018.

Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ