Введение 3
1. Обзор литературы 5
1.1. Глубокое обучение диагностике сердечных проблем с помощью
ЭКГ-сигнала 5
1.2. Глубокое обучение в информационном анализе ЭКГ для диагностики пороков сердца 5
1.3. Машинное обучение в диагностике ЭКГ 5
1.4. Классификация аритмии по признакам вариативности частоты
сердцебиения с помощью SVM 9
1.5. Классификация аритмий на основе метода опорных векторов с
использованием уменьшенных признаков сигнала вариабельности сердечного ритма 9
1.6. Диагностика ишемической болезни сердца с использованием Artificial
Bee Colony (ABC) и KNN 10
1.7. Классификация временных рядов с использованием многоканальных глубоких сверточных нейронных сетей 10
2. Постановка задачи 11
2.1. Предоставленные данные 11
2.1.1. Кардиосигнал 11
2.1.2. Массив RR-интервалов 11
2.1.3. Параметры вариабельности сердечного ритма 12
2.2. Цель 13
2.3. Задачи 13
3. Методы 14
3.1. Загрузка данных 15
3.2. Предобработка сигнала 16
3.2.1. Фильтрация сигнала 16
3.2.2. Выделение кардиоциклов 16
3.2.3. Преобразование Фурье 16
3.2.4. Сингулярное разложение матрицы 19
3.2.5. Метод Успенского 24
3.3. Оценка и селекция признаков 28
3.3.1. Корреляционный анализ 28
3.3.2. ROC-анализ 30
3.4. Классификация 32
Заключение 35
Список литературы 36
Приложение А. Листинги исходного кода 40
Довольно интересной темой в медицине сейчас является анализ вторичных признаков. Например компания CardioQVARK предложила проанализировать зависимость показаний кардиограммы и заболевания туберкулезом. Задача довольно интересна тем, что наличие зависимости необходимо искать в сигнале, полученном с помощью мобильного устройства (чехол CardioQVARK и мобильное приложение для IPhone 5/5c/SE). То есть качество сигнала может сильно отличатся от стандартного сигнала, полученного по 12-ти отведениям.
Компания CardioQVARK предоставила обучающую выборку из 386 пациентов, 107 из которых имеют положительный диагноз на туберкулез. Всего по всем пациентом сделано 2312 замеров кардиограммы. Необходимо для каждого замера определить целевое значение: 1 - положительный диагноз на туберкулез, 0 - условно здоров, т.е. сформировать 2312-мерный бинарный вектор.
Кроме кардиограмм компания предоставляет некоторые вычисленные по ним признаки, а также фильтрованные кардиограммы (которые не использовались в данном алгоритме).
Учитывая природу данных, не приходится удивляться сильному преобладанию условно здоровых пациентов. Поэтому одним из основных условий является то, что полученный алгоритм должен быть сбалансирован по чувствительности и специфичности.
Туберкулез - это инфекционное заболевание, вызываемое разными видами микробактерий. Различают легочные и нелегочные формы туберкулеза. Также туберкулез разделяют на фазы: инфильтрации, распада, обсеменения, рассасывания, уплотнения, рубцевания и обызвествления. В какой конкретно фазе туберкулезного процесса находился пациент - не известно.
Графическая запись разности потенциалов, создающихся между различными участками сердечной мышцы в процессе ее возбуждения, называется электрокардиограммой (ЭКГ). Ориентация и величина этих потенциалов сердца на электрокардиограмме выражаются в амплитуде зубцов и их направленности (полярности) по отношению к изоэлектрической линии и охватывают диапазон 0Д5...300 Гц при уровне сигналов 0,3...3 мВ.
Нормальная ЭКГ состоит из зубцов и горизонтально расположенных между ними отрезков (сегментов) линий (Рисунок 1).
В клинической практике применяются отведения от различных участков поверхности тела. Эти отведения называются поверхностными. При регистрации ЭКГ обычно используется 12 общепринятых отведений: шесть от конечностей и шесть грудных. Первые три стандартных отведения были предложены Эйндховеном. Частота сокращений сердца (ЧСС) определяется по продолжительности одного сердечного цикла, т.е. по продолжительности интервала R - R.
В данном случае имеется только одно отведение, полученное с помощью мобильного устройства, вследствие чего сигнал подвержен шумам.
Был разработан алгоритм, который по распространенным критериям качества! мере, точности, чувствительность + специфичность и др. показывает хорошие результаты. Алгоритм создан c помощью предложенного подхода решения поставленной задачи:
• предобработка сигнала
• генерация признаков (с помощью различных методов)
• селекция признаков
• настройка регрессора
• выбор порога и формирование окончательного результата
На тестовой выборке полученные признаки, построенные на основе ДПФ, сингулярного разложения и метода В.М. Успенского, показали довольно низкое качество классификации — ниже 0.6 по F-мере. Использование разнородных признаков существенно повышает качество решения задачи до 0.69 по F-мере.
Алгоритмы основанные на построение деревьев показали себя как наиболее стабильные алгоритмы для решения задачи классификации. Линейные и стохастические модели зарекомендовали себя как наименее стабильные для выявления заболевания туберкулез у пациентов по ЭКГ
Разработанный алгоритм является серьезным заделом в скрининге заболеваний туберкулезом легких (с качеством близким 0.7 по F-мере и точностью выше 81%). Для использования алгоритма на практике, по нашему мнению, существует 2 подхода к повышению его эффективности. Первый — это дополнительное использование других методов выделения признаков, например, дискретного вейвлет преобразования и признаков QRST комплекса. Второй подход — это доработка в виде увеличения объема выборки ЭКГ сигналов и использование методов глубокого обучения