Тема: Кластеризация временных рядов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Расстояние, основанное на характеристиках временных рядов 4
1.1 Обзор методов библиотеки «TSclust» пакета R 5
1.2 Описание метода 9
1.3 Эксперимент 14
1.4 Выводы 18
2 Задача кластеризации районов Санкт-Петербурга по показателю заболеваемости 19
2.1 Основные понятия 20
2.2 Кластеризация одномерных временных рядов 23
2.3 Кластеризация многомерных временных рядов 26
2.4 Выводы 29
3 Определение состава кластера в спорных ситуациях 31
3.1 Критерии качества кластеризации 31
3.2 Построение нескольких кластеризаций районов по показателю детской заболеваемости 35
3.3 Эвристический алгоритм распределения спорных объектов по кластерам 37
3.4 Выводы 42
Заключение 44
Литература 46
Приложения 50
📖 Введение
Наиболее сложными являются методы, которые работают «без учителя». В таких задачах нет тестовой выборки, по которой можно подобрать параметры или проверить результат. Кластеризация данных относится именно к этой группе. Задача состоит в распределении объектов (данных) по группам таким образом, чтобы внутри каждой группы оказались объекты, обладающие высокой степенью сходства в некотором отношении, которое является принципиально важным для рассматриваемой задачи, а между различными группами обнаруживались бы существенные различия. Для выделения кластеров используются только сами данные, количество кластеров является неизвестной величиной. Процедура распределения по кластерам (подход) может проходить по разному. Здесь выделяют вероятностные, теоретико-графовые, иерархические, нечеткие подходы, эта классификация условная, существуют и другие алгоритмы. Результат будет зависеть не только от выбора подхода, но и от способа определения количества кластеров и выбора метрики.
Работа посвящена кластерному анализу временных рядов, который выделен из общей задачи кластеризации в связи с тем, что даннвхе зависят от времени. Это требует подбора специалвнвхх метрик, учитвхвающих временнвхе особенности. Ввхбор темвх обусловлен не толвко ее актуальноствю, но и наличием практической задачи, рассмотрение которой также приводится в работе. Постановка проблемах и данные предоставлены медицинским информационно-аналитическим центром.
В области кластеризации временных рядов была проделана большая работа: описано применение алгоритма динамической трансформации шкалы в кластерном анализе [1], [2]; этот же алгоритм, но с помощью теории скрытых марковских моделей предложен в [3]; использование коэффициентов автокорреляции, спектральных характеристик, вейвлет- коэффициентов отмечено в работах [4], [5], более полный обзор существующих методов представлен в статье [6].
В первой главе дан обзор существующих метрик и приведено описание новой метрики, разработанной для кластеризации коротких временных рядов. Во второй главе показан кластерный анализ районов Санкт- Петербурга по показателю заболеваемости с 1999 по 2014 гг., получено несколько моделей, по которым построены стабильные кластеры. В том числе, рассмотрен многомерный анализ. В третьей главе рассмотрен метод работы с объектами, которые потенциально могут относиться к нескольким кластерам, работа алгоритма показана на примере детской заболеваемости.
✅ Заключение
В следующем разделе представлено применение методов кластерного анализа временных рядов в решении прикладной задачи. Медицинским информационно - аналитическим центром предоставлены данные по заболеваемости жителей Санкт-Петербурга в возрастной разбивке: дети (до 14 лет), подростки (15-17 лет), взрослые (старше 18 лет) за период с 1999 по 2014 гг. Стоит вопрос являются ли районы города схожими относительно изменения показателя заболеваемости. В работе представлен анализ как одномерных временных рядов, так и многомерных. Задача многомерной кластеризации временных рядов является особенно сложной. Методы условно делятся на два подхода: алгоритмы первой группы учитывают корреляции между переменными, но являются сложными для интерпретации, большая часть из них основана на методе главных компонент; алгоритмы второй группы агрегируют информацию, которая получена при кластеризации каждой переменной отдельно.
Применение разных метрик и подходов кластеризации приводит к противоречивым резулвтатам, поэтому в Главе 2 получена карта «стабильных» кластеров, то еств тех районов, которые оказалисв в одной группе при исполвзовании различнвхх методов. Однако существуют объектах, которые могут быть отнесены к нескольким кластерам. Для решения проблем такого рода обычно используют индексы, которые показывают на сколько ближе оказываются объекты, принадлежащие одному кластеру, относительно объектов, взятых из разных кластеров. Но при выборе модели по индексу качества кластеризации также можно столкнуться с противоречием, так как их большое количество. Поэтому в Главе 3 предложен новый эвристический метод, позволяющий однозначно распределить объекты по кластерам. Идея алгоритма состоит в том, что выбор нужного кластера — это игра голосования, где кандидатами являются различные варианты распределения объектов, а голосующими — критерии качества кластеризации, которые формулируются для каждой задачи отдельно.
Таким образом, в работе представлен обзор современных методов кластерного анализа временных рядов и предложены новые, описаны эксперименты на искусственных и реальных данных и рассмотрена прикладная задача по выявлению однородных групп районов Санкт-Петербурга по уровню заболеваемости.





