СОДЕРЖАНИЕ 1
ВВЕДЕНИЕ 1
2. ОБЗОР РАБОТ 5
3. МОДЕЛЬ NEURONER 8
3.1 Общая архитектура модели NeuroNER 9
3.2 Слой векторного представление токена 10
3.3 Двунаправленный LSTM 11
3.4 Метод условных случайных полей 11
4. МОДЕЛЬ INTERACTIVE ATTENTION NETWORK 13
5.1 Общая архитектура модели IAN 13
5. ДАННЫЕ 17
5.1 Корпус CADEC 18
5.2 Корпус PsyTAR 26
5.2.1 Классификация предложений 27
5.2.2 Выявление сущностей 29
5.3 Формат данных Conll 31
6. АРХИТЕКТУРА СИСТЕМЫ ИЗВЛЕЧЕНИЯ ПОБОЧНЫХ
ЭФФЕКТОВ 34
6.1 Извлечение сущностей 35
6.2 Классификация сущностей 36
6.3 Оценка результатов 38
7. ЭКСПЕРИМЕНТЫ И РЕЗУЛЬТАТЫ 39
8. ЗАКЛЮЧЕНИЕ 43
ГЛОССАРИЙ 44
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 45
Выявление побочных эффектов является одной из основных задач в фармацевтической индустрии. Перед выпуском лекарственного препарата проводится ряд клинических испытаний с целью выявить побочные эффекты. Однако клинические испытания не всегда позволяют обнаружить побочные эффекты, так как некоторые из них проявляются только после продолжительного использования и действуют только на определенной группе пациентов, не участвовавших в клинических исследованиях. В период с 1950 по 2014 год 462 лекарственных препарата были изъяты из продаж [1]. Более того, побочные эффекты, обнаруженные после выпуска лекарства в продажу могут иметь серьезные последствия и привести к летальному исходу [2-5]. Таким образом, обнаружение побочных эффектов после выпуска лекарства является важной проблемой для фармаконадзора.
Одним из методов обнаружения побочных эффектов лекарственных препаратов, поступивших в продажу, является анализ данных из социальных сетей [6]. Пользователи часто пишут о своих проблемах связанных с использованием лекарств в таких социальных сетях как Твиттер и на различных форумах на тему здоровья и медикаментов. Обработка такого объема информации вручную не представляется возможной, в связи с этим для получения информации о побочных эффектах широкое распространение получили методы обработки текстов на естественном языке [7-10].
Одной из задач обнаружения побочных эффектов является классификация информации, относящейся к болезни. Это необходимо,
чтобы удалить ненужную информацию и обнаружить упоминания о побочных эффектах. При решении данной задачи предполагается, что в тексте выделены сущности, относящиеся к состоянию здоровья и системам классификации необходимо выделить среди сущностей определенные группы: побочные эффекты, показания к применению, симптомы и т.д. Существующие работы оценивали системы классификации на правильной разметке, полученной вручную. При таком подходе не учитываются ошибки, возникающие на этапе выделения сущностей.
Целью данной работы является разработка метода автоматического извлечения информации о побочных эффектах, комбинирующего две модели: на первом этапе извлекаются сущности, связанные с состоянием здоровья при помощи модели NeuroNer [11], на втором этапе производится бинарная классификация выделенных сущностей с целью определить побочные эффекты при помощи нейронной сети с интерактивным вниманием Interactive Attention Neural Network (IAN) [12]. В качестве корпусов в работе использовались CSIRO Adverse Drug Event Corpus (CADEC), состоящий из отзывов пользователей о лекарственных препаратах с сайта askapatient.com [13], и корпус отзывов пациентов о психиатрических лекарственных средствах PsyTAR [14].
Для достижения цели были поставлены следующие задачи:
1) Препроцессинг данных. Необходимо перевести используемые в использующийся системами формат.
2) Объединить модели NeuroNER и IAN в единую модель.
3) Оценить результаты работы системы NeuroNER на корпусах PsyTAR и CADEC с выделенными сущностями ADR, DIS и О
4) Оценить результаты работы системы NeuroNER на корпусах PsyTAR и CADEC с сущностями DIS и О, где DIS объединяет в себе сущности ADR и DIS.
5) Оценить результаты работы модели IAN на корпусах PsyTAR и CADEC с сущностями ADR и DIS.
6) Оценить результаты работы объединения модели NeroNER и IAN на корпусах PsyTAR и CADEC, где IAN принимает на вход результаты работы NeuroNER.
7) Провести сравнительный анализ полученных результатов.
В данной работе была рассмотрена задача извлечения побочных эффектов из текстов социальных медиа. В рамках этой задачи, была оценена модель, состоящая из комбинации 2-х архитектур нейронных сетей: NeuroNER для извлечения сущностей, связанных со здоровьем пользователя, и IAN для классификации извлеченных сущностей на побочные эффекты и другие. Модель оценивалась на корпусах CADEC и PsyTAR. Проведенные эксперименты показали, что комбинирование моделей привело к ухудшению результата по сущности ADR, но к улучшению по сущности DIS по сравнению с результатами, полученными только при помощи IAN. При комбинации моделей результаты стали незначительно ниже для сущностей ADR на обоих корпусах, но значительно ниже для сущностей DIS, чем при использовании NeuroNER отдельно.
Дальнейшее направление исследований может быть связано с проверкой модели в условиях, когда обучающая и тестовая выборки будут принадлежать разным корпусам с описанием лекарственных препаратов различных групп.