📄Работа №193931

Тема: АНАЛИЗ СПЕКТРОВ ПОГЛОЩЕНИЯ ЛЕТУЧИХ МЕТАБОЛИТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

Характеристики работы

Тип работы Магистерская диссертация
Математика
Предмет Математика
📄
Объем: 82 листов
📅
Год: 2024
👁️
Просмотров: 73
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Аннотация
ВВЕДЕНИЕ 3
1 ОПИСАНИЕ ДАННЫХ 8
2 ПРЕДОБРАБОТКА ДАННЫХ 11
2.1 Интерполяция данных 11
2.2 Фильтрация данных 15
3 СНИЖЕНИЕ РАЗМЕРНОСТИ 22
4 КЛАСТЕРИЗАЦИЯ 28
5 КЛАССИФИКАЦИЯ 41
5.1 Метод опорных векторов 47
5.2 Случайный лес 52
5.3 Логистическая регрессия 58
5.4 Наивный байес 61
5.5 Градиентный бустинг 65
5.6 Общие выводы 69
5.7 Многоклассовая классификация 70
ЗАКЛЮЧЕНИЕ 73
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 75

📖 Введение

В настоящее время в различных областях человеческой деятельности наблюдается увеличение применения методов машинного обучения, который является ключевым направлением искусственного интеллекта. С его помощью можно решить большой перечень различных интеллектуальных задач, которые раньше мог решить только человек. С высоким приоритетом технологии интеллектуального анализа данных применяются в медицине и смежных науках. Помощь в диагностике и раннем обнаружении различных заболеваний является одной из главных задач в современной медицине и требует максимальной ответственности. В данной области допущение даже незначительных ошибок может привести к серьезным последствиям.
Существует множество исследований, где по определенным характеристикам человеческого организма пытаются диагностировать различные заболевания, причем акцент делается на неинвазивных методах, менее травматичных для пациента, которые при том позволяли бы диагностировать заболевания на ранних стадиях. И одним из таких подходов является анализ выдыхаемого воздуха. По составу выдыхаемого воздуха можно определить множество заболеваний: сахарный диабет, бронхолегочные заболевания, заболевания сердечно-сосудистой системы и т. д. Поэтому методы быстрой и неинвазивной диагностики и оценки состояния таких пациентов представляют значительный практический интерес.
Изучение спектров выдыхаемого воздуха является важной задачей для диагностики различных заболеваний, в том числе и заболеваний дыхательной системы. А применение методов интеллектуального анализа данных поможет повысить эффективность данных исследований, а также улучшить понимание процессов человеческого организма. Методы машинного обучения для анализа спектров поглощения также могут позволить автоматизировать процесс обработки данных, улучшить точность и скорость выявления веществ, которые необходимы для изучения и анализа. Это особенно важно в случаях, когда обрабатываемые спектры содержат большое количество информации и требуют сложных вычислительных методов для анализа.
Например, несмотря на множественность вариантов диагностики, ранняя диагностика осуществляется субъективными методами, основанными на профессионализме и навыках медицинских работников. Общая смертность при инфаркте миокарда достигает 30-35%, примерно 15-20% пациентов умирают на догоспитальном этапе [1]. Таким образом, важно разработать новые методы диагностики, которые способны обнаруживать патологические изменения в сердечной мышце на ранних стадиях и предотвращать развитие инфаркта [2].
Исследование выдыхаемого воздуха открывает возможности по выявлению новых биомаркеров болезней и разработки перспективных методов диагностики. В настоящее время во всем мире активно ведутся исследования по анализу выдыхаемого воздуха, так как он представляет собой сложную многокомпонентную смесь и может служить материалом для диагностики различных заболеваний, в том числе и инфаркта миокарда [2].
Для диагностики диабета используются клинические и лабораторные показатели, такие как уровень глюкозы, гликированный гемоглобин, С-пеп- тид, инсулин и другие. Постоянный мониторинг уровня глюкозы в крови играет важную роль в оценке эффективности лечения. Измерение уровня сахара необходимо для динамического контроля состояния пациентов и коррекции их терапии. Однако эти методы трудоемкие, требующие времени и расходных материалов. Поэтому методы диагностики диабета и оценки пациентов без вмешательства в их организм представляют значительный практический интерес [3].
В исследовании Кистенева Ю. В. и др. «Диагностика диабета на основе анализа выдыхаемого воздуха методом терагерцовой спектроскопии и машинного обучения» [3] представлены результаты исследования выдыхаемого воздуха пациентов с сахарным диабетом в сравнении со здоровыми добровольцами. С использованием метода главных компонент было установлено, что совокупность коэффициентов поглощения в указанных областях может эффективно различать целевую группу от контрольной. Было проведено сравнение полученных данных с измерениями паров ацетона в воздухе у пациентов с диабетом и здоровых добровольцев.
Метод главных компонент широко применяется для сравнительного анализа спектров поглощения выдыхаемого воздуха у больных и здоровых людей в различных диапазонах. Особенностью этого метода является возможность выявления наиболее информативных спектральных областей (информативные признаки) и визуализации распределения различных групп в пространстве признаков, связанных с этими спектральными областями. [4].
С использованием метода главных компонент можно демонстрировать, что уникальные характеристики поглощения в различных спектральных диапазонах могут эффективно разделять целевые и контрольные группы.
А работа Кистенева Ю. В., Кузьмина Д.А., Вражнова Д.А., Борисова А.В. «Классификация больных бронхо-легочными заболеваниями на основе анализа спектров поглощения проб выдыхаемого воздуха с применением метода опорных векторов, нейронной сети» [5] направлена на использование методов интеллектуального анализа данных, таких как метод главных компонент, метод опорных векторов и нейронные сети, для классификации спектров проб выдыхаемого воздуха. Были зарегистрированы спектры поглощения выдыхаемого воздуха набранных добровольцев, проведена подготовка данных к процедуре классификации спектров поглощения выдыхаемого воздуха больных и здоровых людей, а также определены матрицы ошибок в случае нейронной сети и чувствительность в случае метода опорных векторов для полученных результатов классификации.
В основе метода опорных векторов лежит определяемая разделяющая гиперплоскость. Другими словами, при заданных тренировочных данных алгоритм находит такую гиперплоскость, которая разделяет данные, принадлежащие разным классам, самым оптимальным способом. В двухмерном пространстве гиперплоскостью служит прямая линия. Точки, которые стоят ближе всего к гиперплоскости называются опорными векторами, а расстояние от этих векторов до гиперплоскости называется зазором. Чем дальше опорные вектора отстоят от гиперплоскости, тем больше вероятность правильной классификации.
В ходе работы исследования был сделан вывод, что классификации с помощью SVM и нейронной сети приводят к аналогичным результатам.
В исследовании Голяка И.С. и др. «Применение машинного обучения для диагностики некоторых социально значимых заболеваний по выдыхаемому человеком возудуху методом инфракрасной лазерной спектроскопии» [6] помимо метода главных компонент используется метод стохастического вложения соседей с t-распределением (t-SHE, t-distributed Stochastic Neighbor Embedding). Используя методы PCA и t-SNE, было установлено, что уменьшение размерности до 10 наиболее важных признаков объясняет 90% изменчивости. Уменьшение размерности инфракрасных спектров способствует увеличению точности их классификации.
Также кроме широко применяемого классификатора «Метод опорных векторов» в данной работе использовались такие алгоритмы как метод k- ближайших соседей (k-NN) и случайный лес (Random Forest). Результаты исследования показали, что модели машинного обучения успешно могут определять группы людей по их инфракрасным спектрам дыхания с высокой точностью и полнотой, не менее 0,8. Метод опорных векторов оказался наилучшим для классификации различных заболеваний на основе инфракрасных спектров выдыхаемого человеком воздуха [6].
Таким образом, данная работа направлена на применение и сравнение методов машинного обучения в задаче диагностики заболеваний по спектрам выдыхаемого воздуха. В результате литературного обзора были определены методы для предварительной обработки данных и машинного обучения в рамках данного исследования. Кроме того, были использованы методы, которые не были упомянуты в ранее изученных исследованиях. Это может быть полезным для решения актуальных проблем, связанных с диагностикой заболеваний и оценкой состояния пациентов на основе спектров выдыхаемого воздуха.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В данной выпускной квалификационной работе магистра были использованы методы предобработки данных для анализа спектров поглощения летучих метаболитов. Была выявлена проблема несоответствия значений длины волны для разных спектров, из-за чего было невозможно применять методы машинного обучения для дальнейшей работы. Для решения данной проблемы была применена интерполяция спектров. Для удаления шума рассматривались несколько методов фильтрации данных. В результате был использован метод сглаживания спектров фильтр Гаусса.
В качестве метода снижения размерности данных с сохранением информативности был применен метод главных компонент (PCA). После анализа результатов был сделан вывод о том, что для контрольной группы и инфаркта не было выявлено четкой разделимости данных, что говорит о возможности менее успешной кластеризации рассматриваемых групп.
Для того, чтобы показать природу разделимости данных, были рассмотрены методы обучения без учителя, такие как Гауссовая смесь и DBSCAN. В результате работы данные алгоритмы показали высокие результаты только в кластеризации для контрольной группы и диабета, а также для контрольной группы и ковида.
В ходе данной работы было рассмотрено несколько алгоритмов бинарной и многоклассовой классификации для определения эффективности их работы на исследуемых данных. В результате экспериментов можно составить следующий вывод: при сравнении работы алгоритмов лучше всех справились алгоритмы логистическая регрессия и градиентный бустинг, которые показали наивысшие показатели метрик качества. Однако другие рассматриваемые алгоритмы также показали высокие результаты. Для всех исследуемых групп обучение с учителем сработало успешно. Многоклассовая классификация методом случайный лес также продемонстрировал высокие показали метрик качества.
Проведённый анализ алгоритмов машинного обучения, применяемых к спектрам поглощения выдыхаемого воздуха, показывает их перспективность в диагностике рассматриваемых заболеваний.
Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Шилов А. М. Вторичная профилактика инфаркта миокарда //Трудный пациент. - 2006. - Т. 4. - №. 8. - С. 60-64.
2. Лисоводская К. В. и др. Возможность применения спектров поглощения выдыхаемого воздуха для диагностики инфаркта миокарда: выпускная бакалаврская работа по направлению подготовки: 27.03. 05-Инноватика. - 2017.
3. Кистенев Ю. В. и др. Диагностика диабета на основе анализа выдыхаемого воздуха методом терагерцовой спектроскопии и машинного обучения //Оптика и спектроскопия. - 2020. - Т. 128. - №. 6. - С. 805-810.
4. Scholz M., Fraunholz M., Selbig J. Nonlinear principal component analysis: neural network models and applications //Principal manifolds for data visualization and dimension reduction. - Berlin, Heidelberg : Springer Berlin Heidelberg, 2008. - С. 44-67.
5. Кистенев Ю. В. и др. Классификация больных бронхо-легочными заболеваниями на основе анализа спектров поглощения проб выдыхаемого воздуха с применением метода опорных векторов, нейронной сети. - 2016.
6. Голяк И. С. и др. Применение машинного обучения для диагностики некоторых социально значимых заболеваний по выдыхаемому человеком воздуху методом инфракрасной лазерной спектроскопии //Оптика и спектроскопия. - 2023. - Т. 131. - №. 6. - С. 825-831.
7. Акимов А. А., Валитов Д. Р., Кубряк А. И. Предварительная обработка данных для машинного обучения //Научное обозрение. Технические науки. - 2022. - №. 2. - С. 26-31.
8. Буланова А. А. и др. Особенности спектров поглощения выдыхаемого воздуха больных неинфекционными хроническими заболеваниями: хроническая обструктивная болезнь и рак легких //Биотехносфера. - 2012. - №. 3-4 (2122). - С. 39-46.
9. Ханова А. А. Интерполяция функций/Методическое пособие для студентов Института информационных технологий и коммуникаций //Астрахань: Изд-во АГТУ. - 2001.
10. Ильясова Э. Э. и др. Влияние фильтрации на классификацию спектральных данных. - 2018.
11. Кистенев Ю. В. и др. Фильтрация Калмана в задаче уменьшения шума в спектрах поглощения выдыхаемого воздуха. - 2016.
12. Сергиенко А.Б. Цифровая обработка сигналов. — СПб.: Издательство: БХВПетербург, 2011. — 759 с.
13. Айчифер Э.С., Джервис Б.У. Цифровая обработка сигналов. Практический подход. 2-е издание: пер. с англ. — М.: Издательский дом «Вильямс», 2004. — 992 с.
14. Авилова А. Д., Беляев Р. В. Фильтр Гаусса //Информатика: проблемы, методология, технологии. - 2018. - С. 3-5.
15. Aksoy S., Haralick R. M. Feature normalization and likelihood-based similarity measures for image retrieval. Pattern Recognition Letters, 2001, vol. 22, no. 5, pp. 563-582....35

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ