Предмет

ПОИСК АНОМАЛИЙ В БИОМЕДИЦИНСКИХ ДАННЫХ

Работа №	184517
Тип работы	Бакалаврская работа
Предмет	математика и информатика
Объем работы	52
Год сдачи	2024
Стоимость	4520 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	29

Не подходит работа?

Узнай цену на написание

Содержание

АННОТАЦИЯ 3
ВВЕДЕНИЕ 3
1 Исследование и анализ данных 6
1.1 Описание данных 6
1.2 Предварительная обработка данных 7
1.2.1 Коррекция базовой линии 7
1.2.2 Фильтрация шумов 9
1.2.3 Метод главных компонент 11
2 Применение методов поиска аномалий в данных 16
2.1 Бинарная классификация данных 17
2.2 Применение метода Изолирующего леса 20
2.2.1 Расчет входных параметров 20
2.2.2 Применение метода 24
2.2.3 Классификация данных без аномалий 26
2.3 Применение метода DBSCAN 28
2.3.1 Расчет входных параметров 28
2.3.2 Применение метода 31
2.3.3 Классификация данных без аномалий 33
3 Анализ результатов работы методов 36
ЗАКЛЮЧЕНИЕ 41
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 43

Введение

С развитием технологий машинное обучение стало неотъемлемой частью многих научных и практических областей, и особенно важную роль данное направление искусственного интеллекта играет в медицине. Алгоритмы машинного обучения обладают уникальной способностью анализировать большие объемы данных, выявлять закономерности и делать предсказания с высокой точностью, что делает их незаменимыми для современной диагностической медицины. В этом контексте рамановская спектроскопия [1], неинвазивный метод, который позволяет детально изучать молекулярную структуру биологических жидкостей без их разрушения, открывает новые возможности для применения машинного обучения в медицинских исследованиях и практике [2].
Недавние научные исследования подтверждают значительный потенциал сочетания рамановской спектроскопии и машинного обучения в медицине, особенно в диагностике и мониторинге заболеваний. Применение рамановских спектров обеспечивает неинвазивное и точное изучение биологических образцов, что позволяет выявлять молекулярные изменения, связанные с различными патологическими состояниями.
Например, исследование Х. Зуйхари и др. по оценке эффектов низкодозированной фотодинамической терапии для улучшения заживления диабетических ран с использованием рамановской спектроскопии показало, что данный метод дает возможность точно отслеживать изменения в молекулярной структуре тканей [3]. Рамановская спектроскопия позволила неинвазивно получать подробную биохимическую и структурную информацию о ранах, демонстрируя значительные улучшения в показателях заживления.
В исследовании K. Ember и др. по обнаружению инфекции COVID-19 на основе слюны в реальных условиях авторы разработали методику обнаружения вируса в слюне без использования реагентов [4]. Для отслеживания изменений в молекулярном профиле слюны использовался неинвазивный, не содержащий меток подход - рамановская спектроскопия. Используя данный подход и сегментацию капель, удалось классифицировать образцы с точностью, подтвержденной кривыми ROC, где площадь под кривой составила 0.8. Эти результаты демонстрируют, как рамановская спектроскопия в комбинации с машинным обучением может сыграть роль в улучшении диагностики инфекционных заболеваний.
В исследовании Д. Вражнова и др., посвященном использованию рамановской спектроскопии и машинного обучения для выявления биомаркеров глиомы, демонстрируется, как данные технологии могут анализировать биологические образцы на молекулярном уровне [5]. Рамановская спектроскопия выявляет уникальные спектральные подписи, связанные с болезненными состояниями, которые машинное обучение затем классифицирует с высокой точностью. Это сочетание позволяет точно определить патологические изменения в крови на ранних стадиях, значительно улучшая диагностику и обеспечивая важные данные для последующего лечения и мониторинга заболеваний.
Целью данной дипломной работы является применение и сравнение эффективности различных алгоритмов поиска аномалий для повышения точности классификации биомедицинских данных с использованием машинного обучения.
Для достижения этой цели были поставлены следующие задачи:
1. Провести анализ существующих данных и выполнить их предварительную обработку.
2. Реализовать попарную классификацию обработанных данных.
3. Рассчитать оптимальные параметры для методов поиска аномалий.
4. Применить алгоритмы поиска аномалий с вычисленными параметрами.
5. Оценить эффективность примененных методов поиска аномалий путем повторной классификации.
6. Сравнить результаты работы алгоритмов поиска аномалий.
Объектом исследования являются рамановские спектры биомедицинских данных человека, методы поиска аномалий и алгоритмы классификации данных рамановских спектров. Практическая значимость работы заключается в улучшении точности диагностических методик через разработку и сравнение алгоритмов машинного обучения для поиска аномалий в рамановских спектрах, что способствует повышению надежности медицинских исследований и является одним из ключевых факторов для улучшения лечения и прогнозирования заболеваний.
Работа состоит из трех глав:
В первой главе представлено описание исследуемых данных, а также их подготовка к дальнейшему исследованию с помощью таких шагов преобразования, как слияние отдельных файлов с данными в единый набор данных и построение графика для этого набора, коррекция базовой линии, фильтрация шумов скорректированного по базовой линии набора и применение метода главных компонент для уменьшения размерности данных.
Во второй главе проведена бинарная классификация предобработанных данных, представлены алгоритмы, с помощью которых будет производиться обнаружение аномалий в обработанных данных, и высчитаны входные параметры данных алгоритмов, а также проведена бинарная классификация данных, очищенных от аномальных значений.
В третьей главе производится сравнение результатов классификации до и после удаления аномалий, а также подведение итогов по результатам сравнения методов.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В рамках данной дипломной работы был проведен комплексный анализ рамановских спектров, полученных от образцов двух биологических жидкостей человека в трех различных состояниях здоровья: контрольная группа, лица в состоянии 1 и лица в состоянии 2. Основной целью работы было применение и сравнительный анализ эффективности различных существующих алгоритмов поиска аномалий для повышения точности классификации биомедицинских данных с использованием машинного обучения
Были выполнены все поставленные в начале работы задачи:
• изначальные данные были предобработаны, что включало коррекцию по базовой линии и сглаживание спектров, а также применение метода главных компонент для уменьшения размерности данных и представления в n-мерном пространстве;
• для первоначальной оценки точности классификации и разделимости данных по классам были использованы классификаторы SVM и K-NN;
• с помощью вычислительных методов были настроены параметры для алгоритмов поиска аномалий Изолирующего леса и DBSCAN- кластеризации;
• были применены алгоритм Изолирующего леса и DBSCAN-кластеризации для поиска и последующего удаления из изначального массива данных, наиболее подходящих под аномальные;
• путем повторной бинарной классификации были получены оценки разделимости данных, очищенных от предполагаемых аномалий;
• с помощью анализа усредненного F1 -score каждого из ранее используемых классификаторов до и после применения методов поиска аномалий проведено сравнение результатов работы алгоритмов поиска аномалий. Анализ показал, что методы Изолирующего леса и DBSCAN- кластеризации заметно повышают баланс между точностью и полнотой классификационных моделей, применяемых к рамановским спектрам биожидкостей 1 и 2. Это подчеркивает улучшение качества идентификации и классификации данных после удаления аномалий.
Работа демонстрирует значительный потенциал применения анализа рамановских спектров методами машинного обучения для улучшения диагностических возможностей в медицине. Выбранные алгоритмы Изолирующего леса и DBSCAN-кластеризации, параметры для которых были подобраны с помощью вычислительных методов, показали свою эффективность в обнаружении и удалении аномальных данных, что позволило улучшить качество анализа и интерпретации рамановских спектров. Данные результаты могут быть полезны для дальнейших исследований и практического применения в области биомедицинской диагностики. Однако следует отметить, что эффективность алгоритмов может варьироваться в зависимости от качества, объёма и специфики исходных данных.

Литература

1. What is Raman Spectroscopy? // Horiba scientific URL: https://www.horiba.com/int/scientific/technologies/raman-imaging-and- spectroscopy/raman-spectroscopy/ (дата обращения: 03.01.2024).
2. Y. Qi, D. Hu, Y. Jiang, Z. Wu, M. Zheng, E. X. Chen, Y. Liang, M. A. Sadi, K. Zhang, Y. P. Chen Recent Progresses in Machine Learning Assisted Raman Spectroscopy // Advanced Optical Materials. - Volume 11, Issue 14, 2023, - URL: https://onlinelibrary.wiley.com/doi/full/10.1002/adom.202203104 (дата обращения: 03.01.2024).
3. Quantitative Assessment of Low-Dose Photodynamic Therapy Effects on Diabetic Wound Healing Using Raman Spectroscopy / H. Zuhayri, A.A. Samarinova, A.V. Borisov, D.A.L. Guardado [et al] // Pharmaceutics. 2023. Vol. 15, № 2. Art. num. 595. URL: https://www.mdpi.com/1999-4923/15/2/595 (дата обращения: 05.01.2024).
4. Saliva-based detection of COVID-19 infection in a real-world setting using reagent-free Raman spectroscopy and machine learning / Katherine Ember, Francois Daoust, Myriam Mahfoud, Frederick Dallaire, Esmat Zamani Ahmad, Trang Tran, Arthur Plante, Mame-Kany Diop, Tien Nguyen, Amelie St-Georges- Robillard, Nassim Ksantini, Julie Lanthier, Antoine Filiatrault, Guillaume Sheehy, Gabriel Beaudoin, Caroline Quach, Dominique Trudel, Frederic Leblond // URL: https://pubmed.ncbi.nlm.nih.gov/35142113/ (дата обращения: 06.01.2024).
5. Discovering Glioma Tissue through Its Biomarkers’ Detection in Blood
by Raman Spectroscopy and Machine Learning / D.A. Vrazhnov, Y.V. Kistenev, A.P. Shkurinov, A. Mankova [et al] // Pharmaceutics. 2023. Vol. 15, № 1. Art. num. 203. URL: https://www.mdpi.com/1999-4923/15/1/203/pdf (дата
обращения: 06.01.2024).
6. Pre-processing and source separation methods for Raman spectra analysis of biomedical samples / Cyril Gobinet, Valeriu Vrabie, Ali Tfayli, Olivier Piot, Regis Huez, Michel Manfai // URL: https://pubmed.ncbi.nlm.nih.gov/18003439/ (дата обращения: 12.01.2024).
7. Shuxia Guo, Thomas Bocklitz, Jurgen Poppabc. Optimization of
Raman-spectrum baseline correction in biological application [Электронный ресурс] // Analyst. Issue 8, 2016, - URL:
https: //pubs. rsc. org/en/content/articlelanding/2016/an/c6an00041j (дата
обращения: 16.01.2024).
8. Метод наименьших квадратов [Электронный ресурс] // Mathprofi URL: http://mathprofi.ru/metod_naimenshih_kvadratov.html (дата обращения: 16.01.2024).
9. Noise in Machine Learning [Электронный ресурс] // DataHeroes
URL: https://dataheroes.ai/glossary/noise-in-machine-learning/ (дата
обращения: 19.01.2024).
10. Sinead J. Barton, Tomas E. Ward, Bryan M. Hennelly. Algorithm
for optimal denoising of Raman spectra // The Royal Society of Chemistry URL: https://pubs.rsc.org/en/content/articlelanding/2018/ay/c8ay01089g (дата
обращения: 19.01.2024).
11. What Is Principal Component Analysis (PCA) and How It Is
Used? [Электронный ресурс] // Sartorius URL:
https://www.sartorius.com/en/knowledge/science-snippets/what-is-principal- component-analysis-pca-and-how-it-is-used-507186 (дата обращения:
10.02.2024).
12. Binary Classification [Электронный ресурс] // LearnDataSci
URL: https://www.learndatasci.com/glossary/binary-classification/ (дата
обращения: 26.02.2024).
13. SVC [Электронный ресурс] // scikit-learn: Machine Learning
in Python - URL: https://scikit-
learn.org/stable/modules/generated/sklearn.svm.SVC.html (дата обращения: 26.02.2024).
14. KNeighborsClassifier [Электронный ресурс] // scikit-learn
Machine Learning in Python - URL: https://scikit-
learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.ht ml (дата обращения: 10.03.2024).
15. GridSearchCV [Электронный ресурс] // scikit-learn Machine
Learning in Python - URL: https://scikit-
learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.htm l (дата обращения: 26.02.2024).
....24