Тема: ПОИСК АНОМАЛИЙ В БИОМЕДИЦИНСКИХ ДАННЫХ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 3
1 Исследование и анализ данных 6
1.1 Описание данных 6
1.2 Предварительная обработка данных 7
1.2.1 Коррекция базовой линии 7
1.2.2 Фильтрация шумов 9
1.2.3 Метод главных компонент 11
2 Применение методов поиска аномалий в данных 16
2.1 Бинарная классификация данных 17
2.2 Применение метода Изолирующего леса 20
2.2.1 Расчет входных параметров 20
2.2.2 Применение метода 24
2.2.3 Классификация данных без аномалий 26
2.3 Применение метода DBSCAN 28
2.3.1 Расчет входных параметров 28
2.3.2 Применение метода 31
2.3.3 Классификация данных без аномалий 33
3 Анализ результатов работы методов 36
ЗАКЛЮЧЕНИЕ 41
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 43
📖 Введение
Недавние научные исследования подтверждают значительный потенциал сочетания рамановской спектроскопии и машинного обучения в медицине, особенно в диагностике и мониторинге заболеваний. Применение рамановских спектров обеспечивает неинвазивное и точное изучение биологических образцов, что позволяет выявлять молекулярные изменения, связанные с различными патологическими состояниями.
Например, исследование Х. Зуйхари и др. по оценке эффектов низкодозированной фотодинамической терапии для улучшения заживления диабетических ран с использованием рамановской спектроскопии показало, что данный метод дает возможность точно отслеживать изменения в молекулярной структуре тканей [3]. Рамановская спектроскопия позволила неинвазивно получать подробную биохимическую и структурную информацию о ранах, демонстрируя значительные улучшения в показателях заживления.
В исследовании K. Ember и др. по обнаружению инфекции COVID-19 на основе слюны в реальных условиях авторы разработали методику обнаружения вируса в слюне без использования реагентов [4]. Для отслеживания изменений в молекулярном профиле слюны использовался неинвазивный, не содержащий меток подход - рамановская спектроскопия. Используя данный подход и сегментацию капель, удалось классифицировать образцы с точностью, подтвержденной кривыми ROC, где площадь под кривой составила 0.8. Эти результаты демонстрируют, как рамановская спектроскопия в комбинации с машинным обучением может сыграть роль в улучшении диагностики инфекционных заболеваний.
В исследовании Д. Вражнова и др., посвященном использованию рамановской спектроскопии и машинного обучения для выявления биомаркеров глиомы, демонстрируется, как данные технологии могут анализировать биологические образцы на молекулярном уровне [5]. Рамановская спектроскопия выявляет уникальные спектральные подписи, связанные с болезненными состояниями, которые машинное обучение затем классифицирует с высокой точностью. Это сочетание позволяет точно определить патологические изменения в крови на ранних стадиях, значительно улучшая диагностику и обеспечивая важные данные для последующего лечения и мониторинга заболеваний.
Целью данной дипломной работы является применение и сравнение эффективности различных алгоритмов поиска аномалий для повышения точности классификации биомедицинских данных с использованием машинного обучения.
Для достижения этой цели были поставлены следующие задачи:
1. Провести анализ существующих данных и выполнить их предварительную обработку.
2. Реализовать попарную классификацию обработанных данных.
3. Рассчитать оптимальные параметры для методов поиска аномалий.
4. Применить алгоритмы поиска аномалий с вычисленными параметрами.
5. Оценить эффективность примененных методов поиска аномалий путем повторной классификации.
6. Сравнить результаты работы алгоритмов поиска аномалий.
Объектом исследования являются рамановские спектры биомедицинских данных человека, методы поиска аномалий и алгоритмы классификации данных рамановских спектров. Практическая значимость работы заключается в улучшении точности диагностических методик через разработку и сравнение алгоритмов машинного обучения для поиска аномалий в рамановских спектрах, что способствует повышению надежности медицинских исследований и является одним из ключевых факторов для улучшения лечения и прогнозирования заболеваний.
Работа состоит из трех глав:
В первой главе представлено описание исследуемых данных, а также их подготовка к дальнейшему исследованию с помощью таких шагов преобразования, как слияние отдельных файлов с данными в единый набор данных и построение графика для этого набора, коррекция базовой линии, фильтрация шумов скорректированного по базовой линии набора и применение метода главных компонент для уменьшения размерности данных.
Во второй главе проведена бинарная классификация предобработанных данных, представлены алгоритмы, с помощью которых будет производиться обнаружение аномалий в обработанных данных, и высчитаны входные параметры данных алгоритмов, а также проведена бинарная классификация данных, очищенных от аномальных значений.
В третьей главе производится сравнение результатов классификации до и после удаления аномалий, а также подведение итогов по результатам сравнения методов.
✅ Заключение
Были выполнены все поставленные в начале работы задачи:
• изначальные данные были предобработаны, что включало коррекцию по базовой линии и сглаживание спектров, а также применение метода главных компонент для уменьшения размерности данных и представления в n-мерном пространстве;
• для первоначальной оценки точности классификации и разделимости данных по классам были использованы классификаторы SVM и K-NN;
• с помощью вычислительных методов были настроены параметры для алгоритмов поиска аномалий Изолирующего леса и DBSCAN- кластеризации;
• были применены алгоритм Изолирующего леса и DBSCAN-кластеризации для поиска и последующего удаления из изначального массива данных, наиболее подходящих под аномальные;
• путем повторной бинарной классификации были получены оценки разделимости данных, очищенных от предполагаемых аномалий;
• с помощью анализа усредненного F1 -score каждого из ранее используемых классификаторов до и после применения методов поиска аномалий проведено сравнение результатов работы алгоритмов поиска аномалий. Анализ показал, что методы Изолирующего леса и DBSCAN- кластеризации заметно повышают баланс между точностью и полнотой классификационных моделей, применяемых к рамановским спектрам биожидкостей 1 и 2. Это подчеркивает улучшение качества идентификации и классификации данных после удаления аномалий.
Работа демонстрирует значительный потенциал применения анализа рамановских спектров методами машинного обучения для улучшения диагностических возможностей в медицине. Выбранные алгоритмы Изолирующего леса и DBSCAN-кластеризации, параметры для которых были подобраны с помощью вычислительных методов, показали свою эффективность в обнаружении и удалении аномальных данных, что позволило улучшить качество анализа и интерпретации рамановских спектров. Данные результаты могут быть полезны для дальнейших исследований и практического применения в области биомедицинской диагностики. Однако следует отметить, что эффективность алгоритмов может варьироваться в зависимости от качества, объёма и специфики исходных данных.





