ВВЕДЕНИЕ 3
1 Постановка задачи 4
1.1 Формулировка задачи в рамках предметной области 4
1.2 Требования к разрабатываемому решению 4
2 Обзор существующих решений 5
3 Исследование и построение решения задачи 9
3.1 Построение решения задачи 9
3.2 Сегментация изображений 9
4 Описание практической части 11
4.1 Выбор инструментов разработки 11
4.2 Построение обучающей выборки из данных LUNA 2016 11
4.3 Получение позиций узлов в файлах .mhd 12
4.4 Выделение интересующего района для поиска легочных узлов 15
4.5 Бинаризация изображений 16
4.6 Эрозия и наращивание бинарного изображения 19
4.7 Алгоритм отсечения не интересующих регионов 20
4.8 Применение маски интересующего региона 21
4.9 Мера Дайса как функция потерь для сегментации 22
4.10 Загрузка модели сегментации 22
4.11 Обучение модели сегментации 23
4.12 Аугментация изображений 25
4.13 Результаты работы 26
ЗАКЛЮЧЕНИЕ 27
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 28
ПРИЛОЖЕНИЕ
Предметной областью в данной диссертации является медицина, а именно анализ КТ-изображений легких. Рак легких является одном из наиболее распространенных онкологических заболеваний. В данный момент проводится большое количество КТ-исследований легких пациентов по всему
миру. Проводимые исследования генерирует большое количество КТ- изображений, которым требуется анализ. Актуальность данного исследования существует из-за интереса к разработке компьютерных алгоритмов для оптимизации обработки полученных изображений легких.
Самым важным и первым шагом в анализе КТ-изображений легкого на рак, является обнаружение легочных узлов, в которых может находиться злокачественная опухоль.
КТ-изображения для диссертации были взяты из базы данных КТ- изображений легких предоставленных соревнованием по распознаванию изображений легких LUNA[1], данный набор изображений является общедоступным, включая разметки легочных узлов четырьмя радиологами.
Основная цель: сегментация изображений для выявления потенциальных раковых зон. Цель была разделена на несколько задач: выявление интересующих регионов, формирование масок для изображений, обучение сверточной нейронной сети.
В данной работе был реализован алгоритм анализа КТ-изображений с помощью методов машинного обучения в виде сегментации - сверточная нейронная сеть архитектуры U-net. Разработанный алгоритм позволил предсказывать с ошибкой в 0.32 участки с раковыми опухолями.
Была проделана работа по поиску и анализу существующих решений. После обзора существующих решений была подобрана сверточная нейронная сеть архитектуры U-net, которая на данный момент времени является актуальной и часто используемой сетью для анализа биомедицинских изображений.
Проделан поиск базы данных КТ-изображений легких, что в итоге дало более 800 изображений с суммарным объемом в 111 гигабайт. Данный набор данных был взят из открытой базы данных LUNA [1].
Реализованы предложенные алгоритмы с использованием выбранных инструментов. После реализации алгоритмов были проведены многочисленные эксперименты на различных конфигурациях вычислительных систем. В первую очередь был использован домашний компьютер с графическим процессором Nvidia GTX650 объемом 1 гигабайт, данная конфигурация дала понять, что для успешного обучения нейронной сети, потребуется более мощные конфигурации вычислительной системы. В следствии этого были произведены поиск и анализ предлагаемых решений на рынке, в итоге выбор был сделан в пользу вычислительных систем Amazon. На площадке Amazon была выбрана конфигурация с графическим процессором Nvidia Tesla K80 с объемом 12 гигабайт.
Так же были изучены возможности улучшения алгоритма - а именно аугментация данных. Исходные изображения были синтетически изменены для увеличение объема обучающей выборки, изображения подвергались эласточной деформацией. Сравнительный анализ обучения сверточной нейронной сети показал, что использование аугментации столь объемных изображений не дает большого прироста в точности предсказаний сети. Вероятно, аугментация не помогла в связи с тем, что исходная обучающая выборка была объемной.
Возможны пути улучшения и дальнейшего исследования:
1) Проделать исследования в сторону поиска методов аугментации исходных изображений.
2) Улучшить предобработку исходных изображений, путем уменьшения конечного размера обучающей выборки - это поможет проделывать более сложные операции аугментации изображений.
3) Усовершенствовать архитектуру сверточной нейронной сети, путем уменьшения или увеличения слоев.
4) Разработать алгоритм классификации сегментированных изображений, за счет формирования вектора признаков раковых опухолей.
5) Поиск новых алгоритмов классификации.