Введение 4
1 Характеристика бассейна Северной Двины 6
1.1 Рельеф 9
1.2 Климат 10
1.3 Хозяйственное использование поверхностных вод 11
1.4 Описание поста 13
2 Методология нахождения поставленной цели 17
3 Семейства алгоритмов машинного обучения 21
4 Обработка исходных данных 22
4.1 Отбор признаков 23
4.1.1 Масштабирование данных 24
4.1.2 Кластерный анализ 25
5 Решающие деревья 32
5.1 Построение деревьев 33
5.2 Градиентный бустинг 37
5.2.1 Расчет характеристик весеннего половодья градиентным бустингом 40
5.3 Достоинства и недостатки решающих деревьев 53
6 Нейронные сети 55
6.1 Общая модель нейрона 56
6.2 Типы функций активации 57
6.3 Стохастическая модель нейрона 59
6.4 Нейронные сети прямого распространения 60
6.4.1 Расчет характеристик весеннего половодья при помощи многослойного персептрона 65
7 Основные результаты 74
Условия, предшествующие весеннему половодью из года в год, могут сильно отличаться. Накапливается разное количество снега, тает он с раз-личной интенсивностью, температурные условия могут сильно различаться, толщина льда так же меняется. На момент составления прогноза эти величины, как правило, известны, возникает вопрос-можно ли на основании столь разнородных данных дать качественный прогноз характеристик весеннего половодья? Такие прогнозы очень полезны для водопользователей. Известно, что многоводные дружные половодья приводят к наводнениям в населенных пунктах, прорыву плотин, спуску прудов, подтоплению сельскохозяйственных угодий и к другим негативным последствиям. Даже небольшие реки в период половодья могут наносить большой экономический и экологический ущерб.
В качестве объектов исследования выступают величины дат и расходов воды начала, пика и конца весеннего половодья Северной Двины. Предмет исследования - это методы машинного обучения, которые позволяют прогнозировать данные характеристики.
В настоящее время традиционные методики прогноза характеристик весеннего выдают результаты недостаточной точности, при этом, в большинстве случаев, сильно зависят от метеорологических прогнозов, которые имеют большую погрешность в долгосрочной перспективе. Цель работы - опробовать на практике некоторые методы из стремительно развивающейся области знаний, машинного обучения и оценить возможности применения этих методов в гидрологии.
Сама идея обработки гидрологических данных методами машинного обучения появилась довольно давно. Первые упоминания об этом можно найти в статье В.А. Румянцева [1] и позже в статье С.В. Шаночкина [2] . О математической реализации некоторых методов машинного обучения, уже был известно примерно в пятидесятые годы, вот только для реализации в то время не хватало вычислительных мощностей, сейчас, когда вычислительные процессоры стали намного мощней, полученные знания стали воплощать в жизнь, что привело к новым открытиям в различных областях науки и техники.
Решаемые задачи:
1) поиск подходящих методов моделирования
2) подготовка исходных данных
3) построение предсказательных моделей
4) использование модели на практике.
В результате расчетов были получены прогнозные значения дат и величин расхода для начала, пика и окончания весеннего половодья методом градиентного бустинга и прогнозные значения дат и величин расхода для начала и пика половодья методом многослойного персептрона. Решались задачи машинного обучения такие как: кластеризация, классификация и регрессия.
Рассчитана информативность признаков для различных моделей, полученных методом градиентного бустинга. Некоторые признаки несут в себе не-большую информативность, поэтому в расчетах эти признаки можно не учитывать, но так как у нас и так мало признаков, они учитывались, но только с меньшим весом. Уменьшение размерности признаков проводилось при помощи метода главных компонент.
Прогноз даты начала половодья проведен для исходных, нормированных и стандартизированных данных, для выявления влияния преобразования данных на результаты, а также с учетом преобразования данных методом главных компонент.
Таким образом, в большинстве случаев методику можно считать эффективной. Учитывая, что данный метод разработан в основном для задачи классификации, погрешности прогнозов можно связать с ошибками этапа разбиения данных на кластеры методом k-средних значений.
Если сравнить ответы кластеров с прогнозируемыми значениями, то видно небольшую разницу значений между правильными ответами и спрогнозированными, в ином случае ошибки классификации могут быть связаны с недостаточным количеством образов объекта, состоящих из векторов признаков, принадлежащих к тому или иному кластеру. Поэтому, можно сказать, что классификация выдала неплохой результат, а прогноз характеристик весеннего половодья - удовлетворительный. Заметим, что сжатие данных влияет на выходные значения, поэтому рекомендуется проверять информативность при разработке модели прогноза, на этапе выбора признакового описание объекта.
Метод многослойного персептрона хорошо справился с задачей классификации, но из-за больших погрешностей кластерного анализа, прогнозы характеристик весеннего половодья получились в основном неудовлетворительными.
Известно, что чем больше образов одного объекта в обучающей выборке, тем точнее прогноз, поэтому те единичные погрешности классификации методом многослойной сети, скорее всего связаны с недостаточным количеством образов, принадлежащих к одному кластеру.