Введение
Глоссарий
1. Обзор литературы
1.1. Множественная линейная регрессия
1.2. Регуляризация линейной регрессии
1.3. Нейронные сети
1.3.1. Многослойный персептрон
1.3.2. Сеть радиально-базисных функций
1.4. Оценка моделей
1.4.1. Перекрестная проверка ....
1.4.2. Среднеквадратическая ошибка
1.4.3. Коэффициент детерминации .
1.5. Методология исследования
1.6. Технологии
1.6.1. Язык программирования Python .
1.6.2. Библиотеки и инструменты Python
2. Данные
2.1. Обзор данных
2.2. Анализ данных .
3. Реализация моделей и подбор параметров
3.1. Множественная линейная регрессия .
3.2. Многослойный персептрон
3.3 Сетка RBF-функций по координатам
3.4 RBF-сеть по координатам с погодными данными
3.5. RBF-сеть с кластеризацией K-means
Заключение
Список литературы
Приложение
На сегодняшний день загрязнение воздуха является серьезной проблемой современных городов. Загрязнение воздуха влияет на здоровье человека. Прогнозирование качества воздуха является очень важной задачей во всем мире, в том числе и в России. Обычные подходы основаны на применении численных методов и требуют больших вычислительных мощностей. Проблема заключается в снижении затрачиваемых машинных ресурсов и повышении точности предсказаний.
Целью данной дипломной работы является реализация и тестирование моделей предсказания качества атмосферного воздуха города Москвы, использующих методы машинного обучения. Эти решения обладают высокой применимостью в экологических ведомствах и мэрии города.
Исходя из поставленной цели в работе выполняются следующие задачи:
1) сбор данных о загрязняющих веществах в атмосферном воздухе города
Москвы;
2) сбор дополнительных данных о погодных условиях;
3) обработка и анализ полученных данных;
4) построение моделей машинного обучения для предсказания концентраций загрязняющих веществ в атмосфере;
5) реализация моделей и подбор оптимальных параметров;
6) тестирование моделей на собранных данных.
Объектом диплома является процесс построения, реализации и оценки моделей предсказания качества атмосферного воздуха города Москвы.
Предметом работы являются модели предсказания качества атмосферного воздуха города Москвы.
Новизна исследования заключается в применении моделей с RBF-функциями, которые ранее не использовались для предсказаний загрязненности атмосферного воздуха города Москвы.
В работе используются реальные данные, предоставляемые лицензированными онлайн сервисами.
Обработка данных, предиктивные модели и их тестирование реализуются на скриптовом языке программирования Python.
Глоссарий
CRISP-DM (Cross-Industry Standard Process for Data Mining (англ.) — межотраслевой стандартный процесс для исследования данных) — это проверенная в промышленности и наиболее распространенная методология по исследованию данных.
ReLU — rectified linear unit.
Анализ данных — область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных данных.
АСКЗА — автоматическая станция контроля загрязнения атмосферы.
Искусственная нейронная сеть — математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма.
Коэффициент детерминации — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными.
Линейная регрессия — метод восстановления зависимости между двумя переменными.
Машинное обучение — подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, для нахождения законов природы по наборам экспериментальных данных.
Многослойный персептрон — частный случай перцептрона Розен- блатта, в котором один алгоритм обратного распространения ошибки обучает все слои.
Множественная линейная регрессия — метод восстановления зависимости между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной.
Обучающая выборка — выборка, по которой производится оптимизация параметров предсказательной модели.
Однослойный персептрон — простейшая модель нейронной сети, предназначенная для классификации линейно-разделимых данных.
Среднеквадратическая ошибка — мера различий между значениями (выборкой и значениями популяции), предсказанными моделью или оценкой, и фактически наблюдаемыми значениями.
Тестовая выборка — выборка, по которой оценивается качество построенной предсказательной модели.
В рамках дипломной работы были собраны, проанализированы и обработаны данные о среднемесячных показателях загрязненности воздуха и погодных условий в Москве за 2016-2017 год. Также были построены модели машинного обучения, позволяющие осуществлять предсказания качества воздуха на территории города. Прогнозирование концентраций осуществлялось для трех веществ: NO, CO и NO2. В работе использовались стандартные подходы решения задач прогнозирования качества воздуха, такие как множественная линейная регрессия и многослойный персептрон. Помимо этого были реализованы новые предиктивные модели, использующие радиальнобазисные функции, которые показали значительно более точные результаты, чем классические модели. В итоге наилучшей моделью оказалась регрессия использующая погодные условия, данные о концентрациях за предыдущий месяц и RBF-функции по координатам.
Данная работа подтверждает эффективность использования радиальнобазисных функций при решении задач предсказания качества воздуха. Ограничениями в проведенном исследовании являлось количество известных данных. Получение данных о концентрациях веществ в атмосфере за более длительный период, а также погодных измерений в конкретных точках города Москвы позволит изучить более сложные взаимосвязи и построить более точные предиктивные модели.
[1] России Гринпис. Гринпис России показал, чем дышит Москва. 2017. URL: http://www.greenpeace.org/russia/ru/news/2017/air-0823/.
[2] Методология прогнозирования качества воздуха в городах с ограниченной сетью мониторинга загрязнения атмосферы / Кириллова В.И., Николаев В.Д., Сонькин .Р. [и др.] // Главная геофизическая обсерватория им. А.И. Воейкова. Труды главной геофизической обсерватории им. А.И. Воейкова. 2013. №569. С. 213-223.
[3] Taisa S. LiraMarcos A. S. Barrozo, Assis Adilson J. Air quality prediction in Uberlandia and Brazil and using linear models and neural networks // Computer Aided Chemical Engineering. 2007. Т 24. С. 51-56.
[4] Хайкин. Нейронные сети. Полный курс. М.: Издетельский дом ‘Вильямс‘, 2006. 1104 с.
[5] Hartman Eric J., Keeler James D., Kowalski Jacek M. Layered Neural Networks with Gaussian Hidden Units as Universal Approximations // Neural Computation. 1990. Т 2, № 2. С. 210-215.
[6] Prediction of Time Series Using RBF Neural Networks: A New Approach of Clustering / Mohammed Awad, Hector Pomares, Ignacio Rojas [и др.] // The International Arab Journal of Information Technology. 2009. Т 6, № 2.
[7] Jayawardena A. W. Radial basis function network for prediction of hydrological time series // Water Resources Systems - Water Availability and Global Change. 2003. Т 6, № 280.
[8] Training Radial Basis Functions by Gradient Descent / Mercedes Fernandez- Redondo, Carlos Hernandez-Espinosa, Mamen Ortiz-Gomez [и др.] //
Artificial Intelligence and Soft Computing - ICAISC 2004. Berlin, Heidelberg: Springer Berlin Heidelberg, 2004. С. 184-189.
[9] C. Shearer. The CRISP-DM model: the new blueprint for data mining // J Data Warehousing. 2000. Т 5, №4. С. 13-22.
[10] Foundation Python Software. General Python FAQ. URL: https://docs.python.org/3/faq/.
[11] Коэльо Л. П., Ричарт. В. Построение систем машинного обучения на языке Python. М.: ДМК Пресс, 2016. 302 с.
[12] С. Рашка. Python и машинное обучение. М.: ДМК Пресс, 2017. 418 с.
[13] Маккинли У Python и анализ данных. М.: ДМК Пресс, 2015. 482 с.
[14] Мюллер А., Гвидо С. Python и анализ данных. Москва, 2016-2017. 312 с.
[15] Г.И. Горчаков, Б.А. Аношин, Е.Г. Семутникова. Статистический анализ вариаций массовой концентрации грубодисперсного аэрозоля в г. Москве // Оптика атмосферы и океана. 2007. Т 20.
[16] Scikit-learn: Machine Learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort [и др.] // Journal of Machine Learning Research. 2011. Т 12.
С. 2825-2830.