Реферат
ВВЕДЕНИЕ 3
1 Спектральные методы анализа и обработки данных для исследования состава газов и
газовых смесей 5
1.1 Объекты исследования 5
1.2 Методы спектрального анализа газов и газовых смесей 7
2 Методы машинного обучения и понижения размерности 8
2.1 Методы понижения размерности 8
2.2 Методы машинного обучения 14
2.3 Обсуждение методов машинного обучения и понижения размерности 16
3 Исследование влияние шума на качество классификации 17
3.1 Исследование качества классификации модельных спектров поглощения
выдыхаемого воздуха с добавлением шума 19
3.2 Исследование качества классификации модельных спектров поглощения
выдыхаемого воздуха с добавлением шума на различны диапазонах частот 23
ЗАКЛЮЧЕНИЕ 28
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 29
Актуальность данной работы обусловлена тем, что обнаружение и оценка концентрации химических соединений биомаркеров в выдыхаемом человеком воздухе дает возможность оценить общее состояние здоровья, диагностировать заболевания или оценить воздействие окружающей среды . Выдыхаемый воздух является перспективным объектом для применения в области экспресс-диагностики из-за неинвазивности и легкодоступности забора проб. Исследования классификации модельных спектров поглощения методами машинного обучения позволяют оценить требуемые качества параметров спектрального прибора и его диапазон частот.
В работе были исследованы возможности классификации масс-спектров выдыхаемых газов людей здоровых и имеющих патологии такими методами машинного обучения, как линейным и квадратичным дискриминантным анализом, также в работе был использован метод понижения размерности такой как, метод главных компонент. В результате исследования была показана классификация и разделение масс-спектров людей здоровых и имеющих патологии.
В работе, были исследованы ик-спектры поглощения выдыхаемого воздуха групп людей, страдающих диабетом первого типа, бронхиальной астмой и пневмонией с помощью методов машинного обучения. В работе были рассмотрены применение таких методов машинного обучения как, метод опорных векторов, метод k-ближайших соседей и алгоритм случайного леса, с применение таких методов понижения размерности как, метод главных компонент и стохастического вложения соседей с t-распределением (t- SNE), которые позволили улучшить точность классификации. В результате работы были показаны показатели точности методов машинного обучения , с применением методов понижения размерности и без них, наилучшим из которых оказался метод опорных векторов.
В работе было предложено и обосновано исследование спектров поглощения в диапазоне 220 - 330 ТГц, а в работе была исследована классификация модельных спектров поглощения молекулярных соединений при различных уровнях давления от 0,3 до 16,5 Торр при постоянном увеличении на 0,1 Торр, в диапазоне от 220-330 ТГц, с применением методов машинного обучения и метода понижения размерности t-SNE. Из рассмотренных методов машинного обучения были K-ближайших соседей, дерево решений, метод случайного леса, метод опорных векторов линейный и с использованием ядра, многослойный персептрон и так далее, так же в работе были описаны преимущества и недостатки каждого из методов. В результате было проведено обучение классификаторов на модельных спектрах поглощеня и получена точность классификации
методов машинного обучения на модельных спектрах поглощения в диапазон от 220 - 330 ТГц. Далее была проведена качественная оценка точности классификации на экспериментальных спектрах поглощения от 220 - 330 ТГц.
Объектами исследования являются модельные спектры поглощения выдыхаемого воздуха двух групп, больных раком легких и здоровых.
Цель выпускной классификационной работы заключается в исследование влияния уровня шума и диапазона частот, на качество классификации модельных спектров поглощения выдыхаемого воздуха двух групп людей, больных раком легких и здоровых, методами машинного обучения.
Задачи, поставленные при написании работы для достижения цели были сформулированы следующим образом:
• Изучить методы машинного обучения для классификации модельных спектров поглощения смесей двух групп людей, больных раком легких и здоровых.
• Осуществить классификацию модельных спектров поглощения смесей двух групп, больных раком легких и здоровых.
• Изучить влияния шумов и диапазона частот, на качество классификации модельных спектров поглощения смесей двух групп, больных раком легких и здоровых.
В ходе работы с целью исследования классификации спектров поглощения методами машинного обучения, были выполнены следующие задачи:
• Изучены методы машинного обучения, наилучшим из которых в применении является связка метод главных компонент, для понижения размерности пространства признаков, и метод опорных векторов, для классификации двух групп.
• Проведена классификация спектров поглощения модельных смесей двух групп, больных раком и здоровых
• Исследовано влияния шумов и диапазона частот, на качество классификации спектров поглощения модельных смесей двух групп, больных раком и здоровых, где наилучшим диапазоном частот является диапазон частот от 900 см-1 до 3425 см-1, значение чувствительности на уровне шума 0,00126 см-1, составляет 97,2% с погрешностью 2,7%, значение специфичности на уровне шума 0,00126 см-1, составляет 91,2% с погрешностью 2,9%.
Полученные данные позволяют заключить о том, что диапазон частот от 900 см-1 до 3425 см-1, наиболее пригоден для классификации. С ростом шума у этого диапазона частот, наиболее медленнее падают значения чувствительности и специфичности. Так же по результатам можно оценить требуемые параметры спектрального прибора необходимые для снятия спектров поглощения и дальнейшей классификации этих спектров.