АЛГОРИТМИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ПРЕДСКАЗАНИЯ НАЛИЧИЯ ТУБЕРКУЛЕЗА У ВИЧ-ИНФИЦИРОВАННЫХ ПАЦИЕНТОВ С ИСПОЛЬЗОВАНИЕМ ДАННЫХ ПЕРВИЧНОГО ОБСЛЕДОВАНИЯ
|
Основные определения 8
Ведение 9
Обзор литературных источников 18
1.1 Сегментации рентгенографических снимков грудного отдела человека с
использованием алгоритмов глубокого обучения и кодирующих-декодирующих сверточных нейронных сетей. 18
1.2 Автоматическое детектирование ТБ-связанных отклонений в легких пациентов с
последующей классификации изображений. 21
1.3 Обзор существующих методов диагностики туберкулеза 22
1.4 Выводы по разделу 23
2. Разработка моделей и построение алгоритма действия 25
2.1 Входные данные 25
2.2 Кластеризация. Цели 27
2.3 Векторизация 28
2.4 Исследование тенденции к группированию в кластеры 29
2.5 Алгоритмы кластеризации 30
2.6 Признаки, метрики и моделирование 30
2.7 Визуализация 33
2.8 Программная среда и прочие инструменты 33
2.9 Выводы по разделу 34
3. Реализация 35
3.1 Подготовка данных 36
3.2 Реализация кластеризации 39
3.3 Подготовка данных для классификации 43
3.4 Реализация классификации 45
3.5 Выводы по разделу 45
4. Эксперименты, тесты и результаты работы моделей 46
4.1 Входные данные 46
4.2 Кластеризация 46
4.3 Классификация 51
4.3.1 Заполненность данных 51
4.3.2 Подходы к заполнению пропусков в данных 52
4.3.3 Важность признаков в модели 54
4.4 Выводы по разделу 57
Заключение 58
Список использованной литературы 59
Ведение 9
Обзор литературных источников 18
1.1 Сегментации рентгенографических снимков грудного отдела человека с
использованием алгоритмов глубокого обучения и кодирующих-декодирующих сверточных нейронных сетей. 18
1.2 Автоматическое детектирование ТБ-связанных отклонений в легких пациентов с
последующей классификации изображений. 21
1.3 Обзор существующих методов диагностики туберкулеза 22
1.4 Выводы по разделу 23
2. Разработка моделей и построение алгоритма действия 25
2.1 Входные данные 25
2.2 Кластеризация. Цели 27
2.3 Векторизация 28
2.4 Исследование тенденции к группированию в кластеры 29
2.5 Алгоритмы кластеризации 30
2.6 Признаки, метрики и моделирование 30
2.7 Визуализация 33
2.8 Программная среда и прочие инструменты 33
2.9 Выводы по разделу 34
3. Реализация 35
3.1 Подготовка данных 36
3.2 Реализация кластеризации 39
3.3 Подготовка данных для классификации 43
3.4 Реализация классификации 45
3.5 Выводы по разделу 45
4. Эксперименты, тесты и результаты работы моделей 46
4.1 Входные данные 46
4.2 Кластеризация 46
4.3 Классификация 51
4.3.1 Заполненность данных 51
4.3.2 Подходы к заполнению пропусков в данных 52
4.3.3 Важность признаков в модели 54
4.4 Выводы по разделу 57
Заключение 58
Список использованной литературы 59
В настоящее время проблема роста количества ВИЧ-инфицированных пациентов в России стоит очень остро.
По данным Росстата на 2017 год [3] рост количества положительных результатов теста иммуноблот продолжается, и на конец 2016 года зарегистрировано уже 844316 лиц, в крови которых при исследовании методом иммунного блотинга выявлены антитела к ВИЧ. Это 575,6 человек при расчете на 100 000 человек населения. Рост показателей связан также и с повышением мер по выявляемости случаев ВИЧ в последние годы.
По официальным данным Федеральной службы государственной статистики за 2017 год [3], зафиксировано 89,2 тысяч случаев бессимптомного инфекционного статуса, вызванного ВИЧ, и случаев заболеваний, проявившихся как вторичные к ВИЧ.
Данные показывают, что количество заболеваний растет с каждым годом и по сравнению с 2005 годом оно выросло уже в три раза.
Эти данные различаются с данными Роспотребнадзора [4], где утверждается, что количество заболеваний к концу 2017 года не достигло еще и 50 человек на 100 000 и что рост числа выявленных случаев ВИЧ за последний год составил менее 1%.
По данным же неофициальной статистики, число заболеваний намного выше и данных Росстата, и данных Роспотребнадзора. Данное расхождение обусловлено и региональными программами по выявлению пациентов с ВИЧ (в одних регионах этим занимаются более активно, чем в других), и тем, что наиболее часто фиксируются случаи положительного статуса ВИЧ уже на стадиях, когда появились вторичные заболевания, или при обращении пациента в медицинские учреждения по другим проблемам, в процессе работы над которыми делается тест на статус ВИЧ. Например, в некоторых регионах (пример Кемеровская область) тест на ВИЧ является обязательным при постановке на учет при беременности. Таким образом, большая часть случаев ВИЧ просто остается не выявленной и не учитывается ни в одной из официальных статистик.
Как только у пациента установлен положительный ВИЧ-статус, пациент ставится на учет, и ему присваивается ИБ-номер (номер иммуноблот).
Число зарегистрированных случаев заболеваний (на 100 тыс.чел населения)
Рисунки 3 и 4 - Число зарегистрированных случаев заболеваний по данным
Росстата с 2005 по 2016 годы. На диаграмме представлены совокупные данные по случаям
бессимптомного инфекционного статуса, вызванного ВИЧ, и по зафиксированным
случаям заболеваний, проявившихся как вторичные к ВИЧ. (а) тыс.человек и (б)
количество случаев на 100 000 человек населения.
Для лучшего понимания данных приведенной здесь статистики и проблем, с которыми сталкиваются медицинские эксперты при диагностировании и лечении оппортунистических и вторичных к ВИЧ заболеваний, полезно ознакомиться с принятой в Российской медицинской практике и стандартах классификацией стадий ВИЧ, предложенной профессором В. И. Покровским в 2001 г [5].
Согласно этой классификации выделяют следующие этапы:
• Стадия 1: инкубационный период, его продолжительность от 3 недель до 3 месяцев, от заражения до начала острой инфекции и/или выработки антител.
• Стадия 2: стадия первичных проявлений, ее продолжительность 2 - 3 недели. В свою очередь подразделяется следующим образом:
о 2А - отсутствуют симптомы ВИЧ-инфекции или оппортунистических заболеваний, в крови определяются антитела к ВИЧ.
о 2Б - проявления острой ВИЧ инфекции в виде симптомов других инфекционных заболеваний.
о 2В - присоединяются вторичные заболевания - ангина, пневмония, кандидоз, герпес. Характерно быстрое стихание инфекции на фоне лечения.
• Стадия 3: латентный период, может длиться от 2 - 3-х до 20 и более лет. В это время постепенно прогрессирует иммунодефицит. Определяется увеличение лимфоузлов. Постепенно снижается уровень СБ4-лимфоцитов.
• Стадия 4: стадия вторичных заболеваний. Полное снижение СБ4-лимфоцитов, активация вторичной (оппортунистической) инфекции и онкопатологии. Стадия, при которой еще возможно обратное развитие симптоматики и регресс оппортунистической патологии на фоне лечения или самостоятельно. Также подразделяется на следующие категории:
о 4А - бактериальные, грибковые и вирусные поражения слизистых и кожных покровов, воспалительные заболевания верхних дыхательных путей.
о 4Б - более тяжелые и длительные кожные поражения, саркома Капоши, потеря веса, поражения периферической нервной системы и внутренних органов.
о 4В - тяжелые, угрожающие жизни оппортунистические заболевания.
• Стадия 5: терминальная стадия. Необратимое поражение органов и систем. Лечение оказывается неэффективным. Даже адекватно проводимая противовирусная терапия и лечение оппортунистических заболеваний не эффективны, и больной погибает в течение нескольких месяцев.
Существует несколько вариантов вторичных и оппортунистических заболеваний, визуально и симптоматически отражающихся на легких пациентов схожим образом. Причем специфика проявлений некоторых из них часто отличается в случаях, когда такое заболевание является сопутствующим ВИЧ, от случаев этих же заболеваний у ВИЧ-отрицательных пациентов. Так, например, определенные формы туберкулеза легких у ВИЧ-положительных пациентов могут быть больше похожи на случаи пневмоцистной пневмонии или онкологии, чем на классические примеры этой же формы туберкулеза у обычного больного.
Туберкулез легких является одним из самых распространенных оппортунистических заболеваний. Его статистика, итак ужасающая по России, особенно страшна в Дальневосточном, Сибирском, Уральском федеральных округах (согласно справке РИА Новости со ссылкой на источник в Роспотребнадзоре [6]). По данным ВОЗ [6], в России уровень заболеваемости и смертности населения по причине туберкулеза превышает аналогичные показатели в странах Европы в 5 - 8 раз.
Хотя смертность по причине туберкулеза по данным Росстата снизилась [3] за последние годы, она по прежнему остается высокой: более 11 тысяч человек в 2016 году. Среди больных с впервые выявленным активным туберкулезом подавляющую часть составляют именно пациенты с диагнозом активного туберкулеза органов дыхания.
Численность пациентов с активным туберкулезом, состоящих на учете
Обычному больному, поступившему с симптомами подозрительными на туберкулез, в случае неверно выставленного диагноза туберкулез, прием противотуберкулезных препаратов не нанесет вреда.
Однако, если пациент имеет ВИЧ-положительный статус (особенно в стадиях ВИЧ более первой), и ему будет начат курс противотуберкулезных препаратов, это может спровоцировать ВСВИС.
Этот синдром восстановления иммунной системы, ассоциированный с туберкулезом - первичная манифестация или прогрессирование туберкулеза в первые три месяца начала ВААРТ. В его основе лежит восстановление активного иммунного ответа на существовавшую до начала ВААРТ скрытую инфекцию.[7]
Таким образом, чтобы медицинские работники смогли начать ВААРТ-терапию ВИЧ-инфицированного пациента, они обязаны сначала удостовериться, что у него нет туберкулеза.
На сегодняшний день существуют различные медицинские методы для диагностирования туберкулеза. Но в реалиях российской медицины использование самых надежных и быстродействующих методов часто оказывается невозможным в связи с их стоимостью и необходимостью наличия дорогостоящего лабораторного оборудования. Менее дорогие методы обладают или меньшей надежностью диагноза (рентгенография), или для их проведения требуется довольно много времени (посев на КУМ). Но часто этого времени пациент не имеет, лечение надо начинать немедленно.
Неправильная постановка диагноза туберкулез и последующая неправильная терапия с высокой вероятностью приводит к летальному исходу.
Цель данной работы
Разработать и реализовать решение, которое может помочь врачам в постановке правильного диагноза при поступлении ВИЧ-положительного пациента в отделение инфекционной больницы с целью дальнейшего назначения правильного лечения.
Желаемый результат
1. Сократить число неправильно установленных диагнозов.
2. Позволить больницам оптимизировать выделяемый бюджет, направляя на дорогостоящие анализы на базе ПЦР только пациентов с высоким значением вероятности туберкулеза.
3. Снизить смертность пациентов в результате неправильно установленного диагноза и соответственно неверно назначенной терапии.
В процессе работы были исследованы существующие методы предсказания наличия туберкулеза легких, проведено исследование данных, которые содержатся в историях болезни ВИЧ-положительных пациентов, установлена потенциальная решаемость данной задачи на имеющихся данных, подготовлены данные для моделирования, построены несколько математических моделей и проведено тестирование их предсказательной и обобщающей способности.
Практическая значимость данной работы: итоговая модель после некоторой ее доработки может быть использована как вспомогательный инструмент врача при принятии решения о назначении того или иного лечения поступившему в инфекционное отделение больницы в тяжелом состоянии ВИЧ-инфицированному пациенту.
По данным Росстата на 2017 год [3] рост количества положительных результатов теста иммуноблот продолжается, и на конец 2016 года зарегистрировано уже 844316 лиц, в крови которых при исследовании методом иммунного блотинга выявлены антитела к ВИЧ. Это 575,6 человек при расчете на 100 000 человек населения. Рост показателей связан также и с повышением мер по выявляемости случаев ВИЧ в последние годы.
По официальным данным Федеральной службы государственной статистики за 2017 год [3], зафиксировано 89,2 тысяч случаев бессимптомного инфекционного статуса, вызванного ВИЧ, и случаев заболеваний, проявившихся как вторичные к ВИЧ.
Данные показывают, что количество заболеваний растет с каждым годом и по сравнению с 2005 годом оно выросло уже в три раза.
Эти данные различаются с данными Роспотребнадзора [4], где утверждается, что количество заболеваний к концу 2017 года не достигло еще и 50 человек на 100 000 и что рост числа выявленных случаев ВИЧ за последний год составил менее 1%.
По данным же неофициальной статистики, число заболеваний намного выше и данных Росстата, и данных Роспотребнадзора. Данное расхождение обусловлено и региональными программами по выявлению пациентов с ВИЧ (в одних регионах этим занимаются более активно, чем в других), и тем, что наиболее часто фиксируются случаи положительного статуса ВИЧ уже на стадиях, когда появились вторичные заболевания, или при обращении пациента в медицинские учреждения по другим проблемам, в процессе работы над которыми делается тест на статус ВИЧ. Например, в некоторых регионах (пример Кемеровская область) тест на ВИЧ является обязательным при постановке на учет при беременности. Таким образом, большая часть случаев ВИЧ просто остается не выявленной и не учитывается ни в одной из официальных статистик.
Как только у пациента установлен положительный ВИЧ-статус, пациент ставится на учет, и ему присваивается ИБ-номер (номер иммуноблот).
Число зарегистрированных случаев заболеваний (на 100 тыс.чел населения)
Рисунки 3 и 4 - Число зарегистрированных случаев заболеваний по данным
Росстата с 2005 по 2016 годы. На диаграмме представлены совокупные данные по случаям
бессимптомного инфекционного статуса, вызванного ВИЧ, и по зафиксированным
случаям заболеваний, проявившихся как вторичные к ВИЧ. (а) тыс.человек и (б)
количество случаев на 100 000 человек населения.
Для лучшего понимания данных приведенной здесь статистики и проблем, с которыми сталкиваются медицинские эксперты при диагностировании и лечении оппортунистических и вторичных к ВИЧ заболеваний, полезно ознакомиться с принятой в Российской медицинской практике и стандартах классификацией стадий ВИЧ, предложенной профессором В. И. Покровским в 2001 г [5].
Согласно этой классификации выделяют следующие этапы:
• Стадия 1: инкубационный период, его продолжительность от 3 недель до 3 месяцев, от заражения до начала острой инфекции и/или выработки антител.
• Стадия 2: стадия первичных проявлений, ее продолжительность 2 - 3 недели. В свою очередь подразделяется следующим образом:
о 2А - отсутствуют симптомы ВИЧ-инфекции или оппортунистических заболеваний, в крови определяются антитела к ВИЧ.
о 2Б - проявления острой ВИЧ инфекции в виде симптомов других инфекционных заболеваний.
о 2В - присоединяются вторичные заболевания - ангина, пневмония, кандидоз, герпес. Характерно быстрое стихание инфекции на фоне лечения.
• Стадия 3: латентный период, может длиться от 2 - 3-х до 20 и более лет. В это время постепенно прогрессирует иммунодефицит. Определяется увеличение лимфоузлов. Постепенно снижается уровень СБ4-лимфоцитов.
• Стадия 4: стадия вторичных заболеваний. Полное снижение СБ4-лимфоцитов, активация вторичной (оппортунистической) инфекции и онкопатологии. Стадия, при которой еще возможно обратное развитие симптоматики и регресс оппортунистической патологии на фоне лечения или самостоятельно. Также подразделяется на следующие категории:
о 4А - бактериальные, грибковые и вирусные поражения слизистых и кожных покровов, воспалительные заболевания верхних дыхательных путей.
о 4Б - более тяжелые и длительные кожные поражения, саркома Капоши, потеря веса, поражения периферической нервной системы и внутренних органов.
о 4В - тяжелые, угрожающие жизни оппортунистические заболевания.
• Стадия 5: терминальная стадия. Необратимое поражение органов и систем. Лечение оказывается неэффективным. Даже адекватно проводимая противовирусная терапия и лечение оппортунистических заболеваний не эффективны, и больной погибает в течение нескольких месяцев.
Существует несколько вариантов вторичных и оппортунистических заболеваний, визуально и симптоматически отражающихся на легких пациентов схожим образом. Причем специфика проявлений некоторых из них часто отличается в случаях, когда такое заболевание является сопутствующим ВИЧ, от случаев этих же заболеваний у ВИЧ-отрицательных пациентов. Так, например, определенные формы туберкулеза легких у ВИЧ-положительных пациентов могут быть больше похожи на случаи пневмоцистной пневмонии или онкологии, чем на классические примеры этой же формы туберкулеза у обычного больного.
Туберкулез легких является одним из самых распространенных оппортунистических заболеваний. Его статистика, итак ужасающая по России, особенно страшна в Дальневосточном, Сибирском, Уральском федеральных округах (согласно справке РИА Новости со ссылкой на источник в Роспотребнадзоре [6]). По данным ВОЗ [6], в России уровень заболеваемости и смертности населения по причине туберкулеза превышает аналогичные показатели в странах Европы в 5 - 8 раз.
Хотя смертность по причине туберкулеза по данным Росстата снизилась [3] за последние годы, она по прежнему остается высокой: более 11 тысяч человек в 2016 году. Среди больных с впервые выявленным активным туберкулезом подавляющую часть составляют именно пациенты с диагнозом активного туберкулеза органов дыхания.
Численность пациентов с активным туберкулезом, состоящих на учете
Обычному больному, поступившему с симптомами подозрительными на туберкулез, в случае неверно выставленного диагноза туберкулез, прием противотуберкулезных препаратов не нанесет вреда.
Однако, если пациент имеет ВИЧ-положительный статус (особенно в стадиях ВИЧ более первой), и ему будет начат курс противотуберкулезных препаратов, это может спровоцировать ВСВИС.
Этот синдром восстановления иммунной системы, ассоциированный с туберкулезом - первичная манифестация или прогрессирование туберкулеза в первые три месяца начала ВААРТ. В его основе лежит восстановление активного иммунного ответа на существовавшую до начала ВААРТ скрытую инфекцию.[7]
Таким образом, чтобы медицинские работники смогли начать ВААРТ-терапию ВИЧ-инфицированного пациента, они обязаны сначала удостовериться, что у него нет туберкулеза.
На сегодняшний день существуют различные медицинские методы для диагностирования туберкулеза. Но в реалиях российской медицины использование самых надежных и быстродействующих методов часто оказывается невозможным в связи с их стоимостью и необходимостью наличия дорогостоящего лабораторного оборудования. Менее дорогие методы обладают или меньшей надежностью диагноза (рентгенография), или для их проведения требуется довольно много времени (посев на КУМ). Но часто этого времени пациент не имеет, лечение надо начинать немедленно.
Неправильная постановка диагноза туберкулез и последующая неправильная терапия с высокой вероятностью приводит к летальному исходу.
Цель данной работы
Разработать и реализовать решение, которое может помочь врачам в постановке правильного диагноза при поступлении ВИЧ-положительного пациента в отделение инфекционной больницы с целью дальнейшего назначения правильного лечения.
Желаемый результат
1. Сократить число неправильно установленных диагнозов.
2. Позволить больницам оптимизировать выделяемый бюджет, направляя на дорогостоящие анализы на базе ПЦР только пациентов с высоким значением вероятности туберкулеза.
3. Снизить смертность пациентов в результате неправильно установленного диагноза и соответственно неверно назначенной терапии.
В процессе работы были исследованы существующие методы предсказания наличия туберкулеза легких, проведено исследование данных, которые содержатся в историях болезни ВИЧ-положительных пациентов, установлена потенциальная решаемость данной задачи на имеющихся данных, подготовлены данные для моделирования, построены несколько математических моделей и проведено тестирование их предсказательной и обобщающей способности.
Практическая значимость данной работы: итоговая модель после некоторой ее доработки может быть использована как вспомогательный инструмент врача при принятии решения о назначении того или иного лечения поступившему в инфекционное отделение больницы в тяжелом состоянии ВИЧ-инфицированному пациенту.
В данной работе была рассмотрена задача построения предиктивной математической модели для постановки диагноза туберкулез у ВИЧ-инфицированных пациентов на основе клинических данных, которые можно получить в короткие сроки после поступления пациента в медицинское учреждение. Зафиксированы все основные моменты реализации проекта и его компонентов.
Все использованные и описанные в работе решения масштабируемы и могут быть использованы для воспроизведения экспериментов.
Также было проведено исследование существующих методик и обзор используемых для решения задачи диагностирования туберкулеза легких (в частности у ВИЧ-инфицированных пациентов) инструментов, обозначены недостатки существующих решений применительно к проблемам некоторых регионов России.
Выполнена кластеризация по полнотекстовым историям болезни и классификация по выделенным из них признакам за допустимые в рамках исследования периоды после поступления больного в медицинское учреждение. Все выводы и полученные метрики были зафиксированы и проанализированы.
Была решена задача бинарной классификации, проведены эксперименты и исследованы различные комбинации признаков и параметров. По результатам тестирования установлено, что:
• максимальный roc/auc, которого удается достигнуть на текущий момент, при наличии обучающей выборки такого объема и при использовании выбранных инструментов моделирования не превышает 0.54;
• исходя из выводов в исследованных литературных источниках и основываясь на полученных в данной модели результатах, можно сделать вывод, что для наиболее корректной работы алгоритма в рамках исследуемой задачи следует использовать как данные рентгенографии, так и клинические данные.
Все использованные и описанные в работе решения масштабируемы и могут быть использованы для воспроизведения экспериментов.
Также было проведено исследование существующих методик и обзор используемых для решения задачи диагностирования туберкулеза легких (в частности у ВИЧ-инфицированных пациентов) инструментов, обозначены недостатки существующих решений применительно к проблемам некоторых регионов России.
Выполнена кластеризация по полнотекстовым историям болезни и классификация по выделенным из них признакам за допустимые в рамках исследования периоды после поступления больного в медицинское учреждение. Все выводы и полученные метрики были зафиксированы и проанализированы.
Была решена задача бинарной классификации, проведены эксперименты и исследованы различные комбинации признаков и параметров. По результатам тестирования установлено, что:
• максимальный roc/auc, которого удается достигнуть на текущий момент, при наличии обучающей выборки такого объема и при использовании выбранных инструментов моделирования не превышает 0.54;
• исходя из выводов в исследованных литературных источниках и основываясь на полученных в данной модели результатах, можно сделать вывод, что для наиболее корректной работы алгоритма в рамках исследуемой задачи следует использовать как данные рентгенографии, так и клинические данные.



