Реферат
ВВЕДЕНИЕ 3
1 Спектральные методы анализа и обработки данных для исследования состава газов и
газовых смесей 5
1.1 Объекты исследования 5
1.2 Методы спектрального анализа газов и газовых смесей 7
2 Методы машинного обучения и понижения размерности 8
2.1 Методы понижения размерности 8
2.2 Методы машинного обучения 14
2.3 Обсуждение методов машинного обучения и понижения размерности 16
3 Исследование влияние шума на качество классификации 17
3.1 Исследование качества классификации модельных спектров поглощения
выдыхаемого воздуха с добавлением шума 19
3.2 Исследование качества классификации модельных спектров поглощения
выдыхаемого воздуха с добавлением шума на различны диапазонах частот 23
ЗАКЛЮЧЕНИЕ 28
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 29
Актуальность данной работы обусловлена тем, что обнаружение и оценка концентрации химических соединений биомаркеров в выдыхаемом человеком воздухе дает возможность оценить общее состояние здоровья, диагностировать заболевания или оценить воздействие окружающей среды . Выдыхаемый воздух является перспективным объектом для применения в области экспресс-диагностики из-за неинвазивности и легкодоступности забора проб. Исследования классификации модельных спектров поглощения методами машинного обучения позволяют оценить требуемые качества параметров спектрального прибора и его диапазон частот.
В работе были исследованы возможности классификации масс-спектров выдыхаемых газов людей здоровых и имеющих патологии такими методами машинного обучения, как линейным и квадратичным дискриминантным анализом, также в работе был использован метод понижения размерности такой как, метод главных компонент. В результате исследования была показана классификация и разделение масс-спектров людей здоровых и имеющих патологии.
В работе, были исследованы ик-спектры поглощения выдыхаемого воздуха групп людей, страдающих диабетом первого типа, бронхиальной астмой и пневмонией с помощью методов машинного обучения. В работе были рассмотрены применение таких методов машинного обучения как, метод опорных векторов, метод k-ближайших соседей и алгоритм случайного леса, с применение таких методов понижения размерности как, метод главных компонент и стохастического вложения соседей с t-распределением (t- SNE), которые позволили улучшить точность классификации. В результате работы были показаны показатели точности методов машинного обучения , с применением методов понижения размерности и без них, наилучшим из которых оказался метод опорных векторов.
В работе было предложено и обосновано исследование спектров поглощения в диапазоне 220 - 330 ТГц, а в работе была исследована классификация модельных спектров поглощения молекулярных соединений при различных уровнях давления от 0,3 до 16,5 Торр при постоянном увеличении на 0,1 Торр, в диапазоне от 220-330 ТГц, с применением методов машинного обучения и метода понижения размерности t-SNE. Из рассмотренных методов машинного обучения были K-ближайших соседей, дерево решений, метод случайного леса, метод опорных векторов линейный и с использованием ядра, многослойный персептрон и так далее, так же в работе были описаны преимущества и недостатки каждого из методов. В результате было проведено обучение классификаторов на модельных спектрах поглощеня и получена точность классификации
методов машинного обучения на модельных спектрах поглощения в диапазон от 220 - 330 ТГц. Далее была проведена качественная оценка точности классификации на экспериментальных спектрах поглощения от 220 - 330 ТГц.
Объектами исследования являются модельные спектры поглощения выдыхаемого воздуха двух групп, больных раком легких и здоровых.
Цель выпускной классификационной работы заключается в исследование влияния уровня шума и диапазона частот, на качество классификации модельных спектров поглощения выдыхаемого воздуха двух групп людей, больных раком легких и здоровых, методами машинного обучения.
Задачи, поставленные при написании работы для достижения цели были сформулированы следующим образом:
• Изучить методы машинного обучения для классификации модельных спектров поглощения смесей двух групп людей, больных раком легких и здоровых.
• Осуществить классификацию модельных спектров поглощения смесей двух групп, больных раком легких и здоровых.
• Изучить влияния шумов и диапазона частот, на качество классификации модельных спектров поглощения смесей двух групп, больных раком легких и здоровых.
В ходе работы с целью исследования классификации спектров поглощения методами машинного обучения, были выполнены следующие задачи:
• Изучены методы машинного обучения, наилучшим из которых в применении является связка метод главных компонент, для понижения размерности пространства признаков, и метод опорных векторов, для классификации двух групп.
• Проведена классификация спектров поглощения модельных смесей двух групп, больных раком и здоровых
• Исследовано влияния шумов и диапазона частот, на качество классификации спектров поглощения модельных смесей двух групп, больных раком и здоровых, где наилучшим диапазоном частот является диапазон частот от 900 см-1 до 3425 см-1, значение чувствительности на уровне шума 0,00126 см-1, составляет 97,2% с погрешностью 2,7%, значение специфичности на уровне шума 0,00126 см-1, составляет 91,2% с погрешностью 2,9%.
Полученные данные позволяют заключить о том, что диапазон частот от 900 см-1 до 3425 см-1, наиболее пригоден для классификации. С ростом шума у этого диапазона частот, наиболее медленнее падают значения чувствительности и специфичности. Так же по результатам можно оценить требуемые параметры спектрального прибора необходимые для снятия спектров поглощения и дальнейшей классификации этих спектров.
1. Popa C. et al. The level of ethylene biomarker in the renal failure of elderly patients analyzed by photoacoustic spectroscopy //Laser Physics. - 2013. - Т. 23. - №. 12. - С. 125701. Khan R. S., Rehman I. U. Spectroscopy as a tool for detection and monitoring of Coronavirus (COVID-19) // Expert review of molecular diagnostics. - 2020. - Vol.20. - No.7. - P.647-649.
2. Bulanova A. A. et al. Diagnosis of chronic obstructive pulmonary disease using opticoacoustic analysis // PULMONOLOGIYA. - 2015. - Vol.25. - No.1. - P.45-49.
3. Kistenev Y. V. et al. Exhaled air analysis using wideband wave number tuning range infrared laser photoacoustic spectroscopy //Journal of Biomedical Optics. - 2017. - Т. 22. - №. 1. - С. 017002-1 - 017002-8.
4. Манойлов В. В. и др. Методы обработки и исследование возможностей классификации масс-спектров выдыхаемых газов //Научное приборостроение. - 2019. - Т. 29. - №. 1. - С. 106-110.
5. Голяк И. С. и др. Применение машинного обучения для диагностики некоторых социально значимых заболеваний по выдыхаемому человеком воздуху методом инфракрасной лазерной спектроскопии //Оптика и спектроскопия. - 2023. - Т. 131. - №.
6. - С. 825-831.
6. Chowdhury M. A. Z., Rice T. E., Oehlschlaeger M. A. VOC-Net: A Deep Learning Model for the Automated Classification of Rotational THz Spectra of Volatile Organic Compounds //Applied Sciences. - 2022. - Т. 12. - №. 17. - С. 8447.
7. Chowdhury M. A. Z., Rice T. E., Oehlschlaeger M. A. Evaluation of machine learning methods for classification of rotational absorption spectra for gases in the 220-330 GHz range //Applied Physics B. - 2021. - Т. 127. - №. 3. - С. 34.
8. Rice T. E. et al. Halogenated hydrocarbon gas sensing by rotational absorption spectroscopy in the 220-330 GHz frequency range //Applied Physics B. - 2021. - Т. 127. - №. 8. - С. 123.
9. Куперштейн-Чалей П. С., Никехин А. А. Моделирование ИК-спектра смеси веществ с использованием полиморфной перегрузки операторов //Объектные системы. - 2016. - №. 13. - С. 36-42.
10. Айрапетян В. С., Маганакова Т. В. Расчет концентрации наркотических веществ методом дифференциального поглощения и рассеяния //Интерэкспо Гео-Сибирь. - 2015. - Т. 5. - №. 1. - С. 141-147.
11. Степанов Е. В. Спектральные свойства газообразных биомаркеров и выбор оптимальной аналитической линии при интерференции спектров детектируемых газов //Труды ИОФАН. - 2005. - Т. 61. - С. 107-134.
12. Ганеев А. А. и др. Анализ выдыхаемого воздуха как способ диагностики рака легких на ранних стадиях: возможности и проблемы //Успехи химии. - 2018. - Т. 87. - №. 9. - С. 904-921.
13. Яшин Я. И., Веденин А. Н., Яшин А. Я. Ранняя экспрессная и неинвазивная диагностика рака легких: анализ выдыхаемого воздуха методом ГХ/МС //Лаборатория и производство. - 2019. - №. 2. - С. 130-138.
14. Rothman L. S. et al. The HITRAN 2008 molecular spectroscopic database //Journal of Quantitative Spectroscopy and Radiative Transfer. - 2009. - Т. 110. - №. 9-10. - С. 533-572.
15. Скоморощенко В. И. и др. Выявление наиболее специфичных летучих метаболитов методом газовой хроматографии в пробах выдыхаемого воздуха больных раком легких и здоровых добровольцев //Вестник Томского государственного университета. Химия.
• 2017. - №. 7. - С. 45-54.
... всего 31 источников