Тип работы:
Предмет:
Язык работы:


Использование Data Mining при решении задач гидрометеорологического прогнозирования

Работа №171475

Тип работы

Бакалаврская работа

Предмет

гидрология

Объем работы95
Год сдачи2017
Стоимость4550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
1
Не подходит работа?

Узнай цену на написание


Введение 4
Актуальность работы 4
Цель работы 5
Задачи работы 5
Исходные данные 7
1 Использование DataMining для решения гидрометеорологических задач 8
1.1 Определение DataMining 8
1.2 Деревья решений 9
1.3 Характеристика построения деревьев классификации 11
1.3.1 Иерархическая природа деревьев классификации 11
1.3.2 Гибкость метода деревьев классификации 11
1.4 Критерий расщепления 13
1.5 Построение деревьев классификации 15
1.6 Стратегии построения деревьев классификации оптимальных
размеров 17
1.7 Остановка построения
дерева 18
1.8 Алгоритмы ветвления деревьев решений. Особенности алгоритма
CART 19
1.9 Преимущества деревьев
классификации 21
2 Модель межгодовых колебаний уровня моря в Кронштадте на основе
алгоритма деревьев решений 24
2.1 Построение деревьев классификации 24
2.2 Расчёт множественной линейной регрессии 32
2.3 Стандартные ошибки. Сравнение результатов расчёта уровня моря в Кронштадте по методу деревьев классификации и по методу множественной линейной регрессии с фактическим уровнем моря 39
3 Модель межгодовых колебаний стока Печоры на основе алгоритма
деревьев решений 50
3.1 Построение деревьев классификаций. Расчёт множественной
линейной регрессии 50
3.2 Стандартные ошибки 53
Заключение 56
Список литературы 58
Приложение 1 61
Приложение 2 71
Приложение 3 81
Приложение 4 82
Приложение 5 83
Приложение 6 84
Приложение 7 85
Приложение 8 87


Актуальность работы
В данной выпускной квалификационной работе рассматривается использование DataMining для решения гидрометеорологического прогнозирования. Из разнообразных методов, которые составляют различные методы прогнозирования, моделирования и классификации, чья основа базируется на использовании искусственных нейронных сетей, эволюционного программирования, нечёткой логики, деревьев решений, ассоциативной памяти, было решено проверить возможности технологии прогноза дерева решений, а точнее, деревьев классификации.
Для определения эффективности и точности метода деревьев классификации проведено сравнение с классическим методом регрессионного анализа, таким как множественная линейная регрессия.
Методы DataMining широко применяются в различных сферах деятельности, таких как прикладная экономика, социология, при разработке искусственного интеллекта и в прочих областях. В данных областях методы DataMining зарекомендовали себя как эффективные, а полученные результаты достаточно легко интерпретируются.
Актуальность рассматриваемого метода заключается в том, что в настоящее время крайне редко применяется для гидрометеорологических прогнозов. Метод деревьев классификаций является перспективным благодаря простоте реализации и наглядности представляемой информации.
Цель работы
Целью выпускной квалификационной работы является проверка возможности применения метода Data Mining для решения гидрометеорологических задач...

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе было рассмотрено применение к гидрометеорологическим задачам одного из метода DataMining, а именно деревьев классификации. В качестве гидрометеорологических задач были использованы прогнозирование уровня моря в Кронштадте и стока Печоры. Для прогнозирования уровня моря в Кронштадте были построено три дерева классификации, которые имели либо различный набор
гидрометеорологических характеристик, по которым рассчитывался уровень, либо различной длины временной ряд. Также, для сравнения, были рассчитана МЛР по тем же характеристикам, что и деревья классификации.
В процессе выполнения были выявлены недостатки в применении деревьев классификации к гидрометеорологическим задачам. Во-первых, сложность и нетривиальность выбора оптимального размера дерева классификации. Во-вторых, значительное увеличение размеров дерева с ростом временного ряда — при возросшем меньше чем в два раза временном ряду, дерево увеличилось более чем в два раза. В-третьих, стандартная ошибка по независимой выборке практически всегда больше чем по зависимой, что означает, возможные сильные ошибки в прогнозе.
В сравнении метода МЛР и деревьев классификации, модели, рассчитанные по последнему методу, проигрывают в точности прогноза. Однако, нельзя не отметить, что и с помощью метода дерева классификации можно получить модель, которая будет достаточно хорошо прогнозировать гидрометеорологическую характеристику. При том что ветвление в дереве классификации происходит чисто формально, без учёта физических взаимосвязей. Также отсутствие какой-либо важнойсоставляющей для прогнозаисходной характеристики не сказывается сильно отрицательно на моделях деревьев классификации.
Увеличение числа переменных, используемых для прогноза, не усложняет структуру дерева классификации, в отличие от МЛР. Следовательно, оптимальную модель можно быстрее и проще выбрать, и рассчитать по ней прогноз.
Таким образом, использование метода дерева классификации для решения различных гидрометеорологических задач представляется перспективным направлением. Однако следует найти такие гидрометеорологические задачи, для решения которых наиболее оптимально будет использования деревья классификации и которые сложно и/или не всегда эффективно решать классическими физико-статистическими методами. Также для наиболее рационального использования метода дерева решений необходимо решить проблему с выбором оптимального размера дерева.



1. Андреев И. Деревья решений — CART: математический аппарат
[Электронный ресурс] // BaseGroupLabs: технологии анализа данных. — URL: Часть 1: https://basegroup.ru/community/articles/math-cartpart1; Часть 2:
https: //basegroup .ru/community/articles/math-cart-part2.
2. Малинин В.Н. Статистические методы анализа
гидрометеорологической информации. — СПб.: РГГМУ, 2008. — 407 с.
3. Чубукова И.А. DataMining. — М.: Интернет-университет
информационных технологий; Бином, лаборатория знаний, 2008. — 384 с.
4. Шампандар А.Е. Деревья классификации и регрессии // Искусственный интеллект в компьютерных играх. — М.: ИД «Вильямс», 2007. — С. 385-401.
5. Bramer M. Principles of Data Mining. — Springer, 2007. — 344 p.- DOI: 10.1007/978-1-84628-766-4.
6. Breiman L., Friedman J., Olshen R., Stone C. Classification and Regression Trees. — Wadsworth, Belmont, CA, 1984. — 358 p.
7. Classification and Regression Trees: textbook [Electronic resource]. — Carnegie Mellon University, Statistics Department. — URL: http: //www.stat.cmu.edu/~cshalizi/350 /lectures/ 22/lecture-22 .pdf
8. Data Mining / Википедия-свободнаяэнциклопедия
[Электронныйресурс]. — URL: https://ru.wikipedia.
org/wiki/Data_mining#cite_note-comp-0
9. Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. Advances in knowledge discovery & data mining. — Cambridge, MA: MIT Press, 1996.
10. Hunt E.B., Marin J., Stone P.J. Experiments in induction. — N.Y., Academic Press, 1966.
11. Hand D.J., Mannila H., Smith P. Principles of Data Mining. — The MIT Press, 2001. — 546 p.
12. Interactive Trees (C&RT, CHAID): Statistica Help / StatSoftinc.
[Electronic resource]. — URL:
http://documentation.statsoft.com/STATISTICAHelp.aspx?path= Gxx/Indices/InteractiveTreesCRTCHAID_HIndex
13. Murthy S. Automatic construction of decision trees from data: A multidisciplinary survey // Data Mining and Knowledge Discovery, 1998, vol. 2, iss. 4, p. 345-389. — DOI:10.1023/A:1009744630224.
14. Popular Decision Tree: Classification and Regression Trees (C&RT) /
DELL Software [Electronic resource]. — URL:
http://documents.software.dell.com/Statistics/ Textbook/Classification-and-
Regression-Trees
15. Pregibon D. Data Mining // Statistical Computing and Graphics, 1997, vol. 7, p. 8...22


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ