АННОТАЦИЯ 3
ВВЕДЕНИЕ 3
1 Исследование и анализ данных 6
1.1 Описание данных 6
1.2 Предварительная обработка данных 7
1.2.1 Коррекция базовой линии 7
1.2.2 Фильтрация шумов 9
1.2.3 Метод главных компонент 11
2 Применение методов поиска аномалий в данных 16
2.1 Бинарная классификация данных 17
2.2 Применение метода Изолирующего леса 20
2.2.1 Расчет входных параметров 20
2.2.2 Применение метода 24
2.2.3 Классификация данных без аномалий 26
2.3 Применение метода DBSCAN 28
2.3.1 Расчет входных параметров 28
2.3.2 Применение метода 31
2.3.3 Классификация данных без аномалий 33
3 Анализ результатов работы методов 36
ЗАКЛЮЧЕНИЕ 41
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 43
С развитием технологий машинное обучение стало неотъемлемой частью многих научных и практических областей, и особенно важную роль данное направление искусственного интеллекта играет в медицине. Алгоритмы машинного обучения обладают уникальной способностью анализировать большие объемы данных, выявлять закономерности и делать предсказания с высокой точностью, что делает их незаменимыми для современной диагностической медицины. В этом контексте рамановская спектроскопия [1], неинвазивный метод, который позволяет детально изучать молекулярную структуру биологических жидкостей без их разрушения, открывает новые возможности для применения машинного обучения в медицинских исследованиях и практике [2].
Недавние научные исследования подтверждают значительный потенциал сочетания рамановской спектроскопии и машинного обучения в медицине, особенно в диагностике и мониторинге заболеваний. Применение рамановских спектров обеспечивает неинвазивное и точное изучение биологических образцов, что позволяет выявлять молекулярные изменения, связанные с различными патологическими состояниями.
Например, исследование Х. Зуйхари и др. по оценке эффектов низкодозированной фотодинамической терапии для улучшения заживления диабетических ран с использованием рамановской спектроскопии показало, что данный метод дает возможность точно отслеживать изменения в молекулярной структуре тканей [3]. Рамановская спектроскопия позволила неинвазивно получать подробную биохимическую и структурную информацию о ранах, демонстрируя значительные улучшения в показателях заживления.
В исследовании K. Ember и др. по обнаружению инфекции COVID-19 на основе слюны в реальных условиях авторы разработали методику обнаружения вируса в слюне без использования реагентов [4]. Для отслеживания изменений в молекулярном профиле слюны использовался неинвазивный, не содержащий меток подход - рамановская спектроскопия. Используя данный подход и сегментацию капель, удалось классифицировать образцы с точностью, подтвержденной кривыми ROC, где площадь под кривой составила 0.8. Эти результаты демонстрируют, как рамановская спектроскопия в комбинации с машинным обучением может сыграть роль в улучшении диагностики инфекционных заболеваний.
В исследовании Д. Вражнова и др., посвященном использованию рамановской спектроскопии и машинного обучения для выявления биомаркеров глиомы, демонстрируется, как данные технологии могут анализировать биологические образцы на молекулярном уровне [5]. Рамановская спектроскопия выявляет уникальные спектральные подписи, связанные с болезненными состояниями, которые машинное обучение затем классифицирует с высокой точностью. Это сочетание позволяет точно определить патологические изменения в крови на ранних стадиях, значительно улучшая диагностику и обеспечивая важные данные для последующего лечения и мониторинга заболеваний.
Целью данной дипломной работы является применение и сравнение эффективности различных алгоритмов поиска аномалий для повышения точности классификации биомедицинских данных с использованием машинного обучения.
Для достижения этой цели были поставлены следующие задачи:
1. Провести анализ существующих данных и выполнить их предварительную обработку.
2. Реализовать попарную классификацию обработанных данных.
3. Рассчитать оптимальные параметры для методов поиска аномалий.
4. Применить алгоритмы поиска аномалий с вычисленными параметрами.
5. Оценить эффективность примененных методов поиска аномалий путем повторной классификации.
6. Сравнить результаты работы алгоритмов поиска аномалий.
Объектом исследования являются рамановские спектры биомедицинских данных человека, методы поиска аномалий и алгоритмы классификации данных рамановских спектров. Практическая значимость работы заключается в улучшении точности диагностических методик через разработку и сравнение алгоритмов машинного обучения для поиска аномалий в рамановских спектрах, что способствует повышению надежности медицинских исследований и является одним из ключевых факторов для улучшения лечения и прогнозирования заболеваний.
Работа состоит из трех глав:
В первой главе представлено описание исследуемых данных, а также их подготовка к дальнейшему исследованию с помощью таких шагов преобразования, как слияние отдельных файлов с данными в единый набор данных и построение графика для этого набора, коррекция базовой линии, фильтрация шумов скорректированного по базовой линии набора и применение метода главных компонент для уменьшения размерности данных.
Во второй главе проведена бинарная классификация предобработанных данных, представлены алгоритмы, с помощью которых будет производиться обнаружение аномалий в обработанных данных, и высчитаны входные параметры данных алгоритмов, а также проведена бинарная классификация данных, очищенных от аномальных значений.
В третьей главе производится сравнение результатов классификации до и после удаления аномалий, а также подведение итогов по результатам сравнения методов.
В рамках данной дипломной работы был проведен комплексный анализ рамановских спектров, полученных от образцов двух биологических жидкостей человека в трех различных состояниях здоровья: контрольная группа, лица в состоянии 1 и лица в состоянии 2. Основной целью работы было применение и сравнительный анализ эффективности различных существующих алгоритмов поиска аномалий для повышения точности классификации биомедицинских данных с использованием машинного обучения
Были выполнены все поставленные в начале работы задачи:
• изначальные данные были предобработаны, что включало коррекцию по базовой линии и сглаживание спектров, а также применение метода главных компонент для уменьшения размерности данных и представления в n-мерном пространстве;
• для первоначальной оценки точности классификации и разделимости данных по классам были использованы классификаторы SVM и K-NN;
• с помощью вычислительных методов были настроены параметры для алгоритмов поиска аномалий Изолирующего леса и DBSCAN- кластеризации;
• были применены алгоритм Изолирующего леса и DBSCAN-кластеризации для поиска и последующего удаления из изначального массива данных, наиболее подходящих под аномальные;
• путем повторной бинарной классификации были получены оценки разделимости данных, очищенных от предполагаемых аномалий;
• с помощью анализа усредненного F1 -score каждого из ранее используемых классификаторов до и после применения методов поиска аномалий проведено сравнение результатов работы алгоритмов поиска аномалий. Анализ показал, что методы Изолирующего леса и DBSCAN- кластеризации заметно повышают баланс между точностью и полнотой классификационных моделей, применяемых к рамановским спектрам биожидкостей 1 и 2. Это подчеркивает улучшение качества идентификации и классификации данных после удаления аномалий.
Работа демонстрирует значительный потенциал применения анализа рамановских спектров методами машинного обучения для улучшения диагностических возможностей в медицине. Выбранные алгоритмы Изолирующего леса и DBSCAN-кластеризации, параметры для которых были подобраны с помощью вычислительных методов, показали свою эффективность в обнаружении и удалении аномальных данных, что позволило улучшить качество анализа и интерпретации рамановских спектров. Данные результаты могут быть полезны для дальнейших исследований и практического применения в области биомедицинской диагностики. Однако следует отметить, что эффективность алгоритмов может варьироваться в зависимости от качества, объёма и специфики исходных данных.