ВВЕДЕНИЕ 13
1. АНАЛИТИЧЕСКИЙ ОБЗОР 14
1.1 Задача кластеризации 14
Цели кластеризации 14
1.2 Графовые методы кластеризации 14
1.3 Алгоритм FOREL 15
1.4 Статистические алгоритмы 16
1.5 Иерархическая кластеризация 16
1.6 Обучение без учителя 16
1.7 Сеть Кохонена 18
1.8 Соревновательное обучение 18
2. Алгоритм кластеризации климатических данных 20
2.1 Описание алгоритма 20
2.2 Разработка способа кластеризации с внедрением метрики среднегодовых температур 21
3. МАТЕРИАЛЫ И МЕТОДЫ 22
3.1 NumPy 22
3.2 Pandas 22
3.3 Matplotlib 22
3.4 K-Средних 22
3.5 Нейронная сеть Кохонена 23
Используемые наборы данных 23
4 РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ 23
4.1 Кластеризация на основе k - средних 23
4.2 Кластеризация на основе нейросетевого алгоритма Кохонена 30
Среднемесячная температура 30
Среднегодовая температура 31
Средняя температура за 62 года 33
5. Финансовый менеджмент, ресурсоэффективность и ресурсосбережение 35
5.1 Предпроектный анализ 35
5.1.1 Потенциальные потребители результатов исследования 35
5.1.2 Анализ конкурентных решений 36
5.1.3 SWOT-анализ 36
5.1.4 Оценка готовности проекта к коммерциализации 37
5.2. Инициация проекта 39
5.3 Планирование управления научно-техническим проектом 39
5.3.1 План проекта 39
5.3.2 Бюджет научного исследования 40
5.2.7 Накладные расходы 43
5.3 Оценка сравнительной эффективности исследования 43
6. СОЦИАЛЬНАЯ ОТВЕТСТВЕННОСТЬ 46
6.1 Правовые аспекты обеспечения безопасности 47
6.2 Эргономические требования к рабочему месту 47
6.3 Производственная безопасность 48
6.3.1 Вредные производственные факторы 49
6.3.2 Опасные производственные факторы 55
6.4 Экологическая безопасность 56
6.5 Безопасность в чрезвычайных ситуациях 57
Выводы по разделу 59
Заключение 60
ПРИЛОЖЕНИЕ A
Одной из самых существенных и масштабных проблем современности на текущий момент можно назвать непрерывно растущий объем информации, который требует определенной систематизации, упрощения и вычленения ее существенной части. С развитием технических средств и интернет- технологий объем цифровых данных растет в огромных масштабах и исчисляется терабайтами. Осуществлять обработку таких данных вручную трудоемко, а существующие методы могут оказаться неэффективными. Поэтому для решения задач такого рода требуются все более и более новые методы обработки данных. Современные методы должны с достаточно высокой точностью осуществлять анализ, систематизацию и сбор полученной информации.
Методы, позволяющие анализировать большие объемы данных, имеют широкий спектр применения. Так, в медицине по совокупности кластерных симптомов можно с достаточно высокой точностью установить диагноз и назначить последующее лечение; в экономике набор параметров кластера может использоваться для выделения групп потребителей, их поведения и их потребительской корзины; в метеорологии кластерный анализ позволяет выделять климатические зоны и прогнозировать их изменение. С помощью алгоритмов кластеризации можно реализовать задачу распознавания образов, а также существует достаточно высокая потребность в обработке больших объемов данных в научных исследованиях. На основании вышеизложенного можно сделать вывод, что востребованность алгоритмов кластеризации и их исследования достаточно высока.
Целью данной выпускной квалификационной работы является разработка метода и исследование алгоритма кластеризации климатических данных.
Для этого были решены следующие задачи:
- Проведен анализ существующих и актуальных на данный момент методов кластеризации. Выявлены их преимущества и недостатки;
- Было предложено использовать среднегодовое значение температур для кластеризации временных рядов;
- На основании выявленных закономерностей была подтверждена гипотеза о пригодности среднегодового и среднего значения температуры в целом (за 62 года) как метрики для кластеризации временных рядов;
- При анализе данных температурных рядов были выявлены паттерны поведения рядов, отличающихся синхронностью и как правило незначительной разницей в значениях температуры, были выявлены узловые точки, демонстрирующие сходство между климатом станций;
- С применением подготовленных данных была осуществлена кластеризация методом k-средних, взятым в качестве эталонного и выделены климатические классы;
- Реализован нейросетевой алгоритм кластеризации, опирающийся в своей архитектуре на сеть Кохонена;
- С помощью реализованного алгоритма был проведен эксперимент. Была проведена кластеризация климатических данных при установке различных параметров. Были получены уникальные климатические классы;
- Были выявлены различия результатов кластеризации с методом k- средних, взятым в качестве эталонного алгоритма;
- В отличие от k-средних у нейросетевого алгоритма в зависимости от выбранной метрики результаты могут быть различными, что говорит о чувствительности алгоритма к входным данным;