Тема: АНАЛИЗ СПЕКТРОВ ПОГЛОЩЕНИЯ ЛЕТУЧИХ МЕТАБОЛИТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 3
1 ОПИСАНИЕ ДАННЫХ 8
2 ПРЕДОБРАБОТКА ДАННЫХ 11
2.1 Интерполяция данных 11
2.2 Фильтрация данных 15
3 СНИЖЕНИЕ РАЗМЕРНОСТИ 22
4 КЛАСТЕРИЗАЦИЯ 28
5 КЛАССИФИКАЦИЯ 41
5.1 Метод опорных векторов 47
5.2 Случайный лес 52
5.3 Логистическая регрессия 58
5.4 Наивный байес 61
5.5 Градиентный бустинг 65
5.6 Общие выводы 69
5.7 Многоклассовая классификация 70
ЗАКЛЮЧЕНИЕ 73
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 75
📖 Введение
Существует множество исследований, где по определенным характеристикам человеческого организма пытаются диагностировать различные заболевания, причем акцент делается на неинвазивных методах, менее травматичных для пациента, которые при том позволяли бы диагностировать заболевания на ранних стадиях. И одним из таких подходов является анализ выдыхаемого воздуха. По составу выдыхаемого воздуха можно определить множество заболеваний: сахарный диабет, бронхолегочные заболевания, заболевания сердечно-сосудистой системы и т. д. Поэтому методы быстрой и неинвазивной диагностики и оценки состояния таких пациентов представляют значительный практический интерес.
Изучение спектров выдыхаемого воздуха является важной задачей для диагностики различных заболеваний, в том числе и заболеваний дыхательной системы. А применение методов интеллектуального анализа данных поможет повысить эффективность данных исследований, а также улучшить понимание процессов человеческого организма. Методы машинного обучения для анализа спектров поглощения также могут позволить автоматизировать процесс обработки данных, улучшить точность и скорость выявления веществ, которые необходимы для изучения и анализа. Это особенно важно в случаях, когда обрабатываемые спектры содержат большое количество информации и требуют сложных вычислительных методов для анализа.
Например, несмотря на множественность вариантов диагностики, ранняя диагностика осуществляется субъективными методами, основанными на профессионализме и навыках медицинских работников. Общая смертность при инфаркте миокарда достигает 30-35%, примерно 15-20% пациентов умирают на догоспитальном этапе [1]. Таким образом, важно разработать новые методы диагностики, которые способны обнаруживать патологические изменения в сердечной мышце на ранних стадиях и предотвращать развитие инфаркта [2].
Исследование выдыхаемого воздуха открывает возможности по выявлению новых биомаркеров болезней и разработки перспективных методов диагностики. В настоящее время во всем мире активно ведутся исследования по анализу выдыхаемого воздуха, так как он представляет собой сложную многокомпонентную смесь и может служить материалом для диагностики различных заболеваний, в том числе и инфаркта миокарда [2].
Для диагностики диабета используются клинические и лабораторные показатели, такие как уровень глюкозы, гликированный гемоглобин, С-пеп- тид, инсулин и другие. Постоянный мониторинг уровня глюкозы в крови играет важную роль в оценке эффективности лечения. Измерение уровня сахара необходимо для динамического контроля состояния пациентов и коррекции их терапии. Однако эти методы трудоемкие, требующие времени и расходных материалов. Поэтому методы диагностики диабета и оценки пациентов без вмешательства в их организм представляют значительный практический интерес [3].
В исследовании Кистенева Ю. В. и др. «Диагностика диабета на основе анализа выдыхаемого воздуха методом терагерцовой спектроскопии и машинного обучения» [3] представлены результаты исследования выдыхаемого воздуха пациентов с сахарным диабетом в сравнении со здоровыми добровольцами. С использованием метода главных компонент было установлено, что совокупность коэффициентов поглощения в указанных областях может эффективно различать целевую группу от контрольной. Было проведено сравнение полученных данных с измерениями паров ацетона в воздухе у пациентов с диабетом и здоровых добровольцев.
Метод главных компонент широко применяется для сравнительного анализа спектров поглощения выдыхаемого воздуха у больных и здоровых людей в различных диапазонах. Особенностью этого метода является возможность выявления наиболее информативных спектральных областей (информативные признаки) и визуализации распределения различных групп в пространстве признаков, связанных с этими спектральными областями. [4].
С использованием метода главных компонент можно демонстрировать, что уникальные характеристики поглощения в различных спектральных диапазонах могут эффективно разделять целевые и контрольные группы.
А работа Кистенева Ю. В., Кузьмина Д.А., Вражнова Д.А., Борисова А.В. «Классификация больных бронхо-легочными заболеваниями на основе анализа спектров поглощения проб выдыхаемого воздуха с применением метода опорных векторов, нейронной сети» [5] направлена на использование методов интеллектуального анализа данных, таких как метод главных компонент, метод опорных векторов и нейронные сети, для классификации спектров проб выдыхаемого воздуха. Были зарегистрированы спектры поглощения выдыхаемого воздуха набранных добровольцев, проведена подготовка данных к процедуре классификации спектров поглощения выдыхаемого воздуха больных и здоровых людей, а также определены матрицы ошибок в случае нейронной сети и чувствительность в случае метода опорных векторов для полученных результатов классификации.
В основе метода опорных векторов лежит определяемая разделяющая гиперплоскость. Другими словами, при заданных тренировочных данных алгоритм находит такую гиперплоскость, которая разделяет данные, принадлежащие разным классам, самым оптимальным способом. В двухмерном пространстве гиперплоскостью служит прямая линия. Точки, которые стоят ближе всего к гиперплоскости называются опорными векторами, а расстояние от этих векторов до гиперплоскости называется зазором. Чем дальше опорные вектора отстоят от гиперплоскости, тем больше вероятность правильной классификации.
В ходе работы исследования был сделан вывод, что классификации с помощью SVM и нейронной сети приводят к аналогичным результатам.
В исследовании Голяка И.С. и др. «Применение машинного обучения для диагностики некоторых социально значимых заболеваний по выдыхаемому человеком возудуху методом инфракрасной лазерной спектроскопии» [6] помимо метода главных компонент используется метод стохастического вложения соседей с t-распределением (t-SHE, t-distributed Stochastic Neighbor Embedding). Используя методы PCA и t-SNE, было установлено, что уменьшение размерности до 10 наиболее важных признаков объясняет 90% изменчивости. Уменьшение размерности инфракрасных спектров способствует увеличению точности их классификации.
Также кроме широко применяемого классификатора «Метод опорных векторов» в данной работе использовались такие алгоритмы как метод k- ближайших соседей (k-NN) и случайный лес (Random Forest). Результаты исследования показали, что модели машинного обучения успешно могут определять группы людей по их инфракрасным спектрам дыхания с высокой точностью и полнотой, не менее 0,8. Метод опорных векторов оказался наилучшим для классификации различных заболеваний на основе инфракрасных спектров выдыхаемого человеком воздуха [6].
Таким образом, данная работа направлена на применение и сравнение методов машинного обучения в задаче диагностики заболеваний по спектрам выдыхаемого воздуха. В результате литературного обзора были определены методы для предварительной обработки данных и машинного обучения в рамках данного исследования. Кроме того, были использованы методы, которые не были упомянуты в ранее изученных исследованиях. Это может быть полезным для решения актуальных проблем, связанных с диагностикой заболеваний и оценкой состояния пациентов на основе спектров выдыхаемого воздуха.
✅ Заключение
В качестве метода снижения размерности данных с сохранением информативности был применен метод главных компонент (PCA). После анализа результатов был сделан вывод о том, что для контрольной группы и инфаркта не было выявлено четкой разделимости данных, что говорит о возможности менее успешной кластеризации рассматриваемых групп.
Для того, чтобы показать природу разделимости данных, были рассмотрены методы обучения без учителя, такие как Гауссовая смесь и DBSCAN. В результате работы данные алгоритмы показали высокие результаты только в кластеризации для контрольной группы и диабета, а также для контрольной группы и ковида.
В ходе данной работы было рассмотрено несколько алгоритмов бинарной и многоклассовой классификации для определения эффективности их работы на исследуемых данных. В результате экспериментов можно составить следующий вывод: при сравнении работы алгоритмов лучше всех справились алгоритмы логистическая регрессия и градиентный бустинг, которые показали наивысшие показатели метрик качества. Однако другие рассматриваемые алгоритмы также показали высокие результаты. Для всех исследуемых групп обучение с учителем сработало успешно. Многоклассовая классификация методом случайный лес также продемонстрировал высокие показали метрик качества.
Проведённый анализ алгоритмов машинного обучения, применяемых к спектрам поглощения выдыхаемого воздуха, показывает их перспективность в диагностике рассматриваемых заболеваний.





