ОПРЕДЕЛЕНИЕ ЭПИДЕМИОЛОГИЧЕСКОЙ ОПАСНОСТИ И ПРОГНОЗИРОВАНИЕ РАСПРОСТРАНЕНИЯ COVID-19 В СТРАНАХ МИРА НА ОСНОВЕ ОТКРЫТЫХ ДАННЫХ
|
Аннотация
ОПРЕДЕЛЕНИЯ 3
ВВЕДЕНИЕ 5
1 Постановка задачи и подготовка данных 8
1.1 Постановка задачи 8
1.2 Отбор признаков 9
1.3 Восстановление пропущенных значений 15
1.4 Кластеризация набора данных 15
1.5 Выводы по главе 25
2 Ранжирование стран по уровню опасности 27
2.1 Обзор алгоритмов классификации 27
2.2 Практические исследования для определения уровня опасности 33
2.3 Выводы по главе 34
3 Предсказание распространения COVID-19 в разных странах 35
3.1 Обзор алгоритмов и методов регрессионного анализа 35
3.2 Предсказание распространения COVID-19 41
3.3 Выводы по главе 47
ЗАКЛЮЧЕНИЕ 48
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 49
ОПРЕДЕЛЕНИЯ 3
ВВЕДЕНИЕ 5
1 Постановка задачи и подготовка данных 8
1.1 Постановка задачи 8
1.2 Отбор признаков 9
1.3 Восстановление пропущенных значений 15
1.4 Кластеризация набора данных 15
1.5 Выводы по главе 25
2 Ранжирование стран по уровню опасности 27
2.1 Обзор алгоритмов классификации 27
2.2 Практические исследования для определения уровня опасности 33
2.3 Выводы по главе 34
3 Предсказание распространения COVID-19 в разных странах 35
3.1 Обзор алгоритмов и методов регрессионного анализа 35
3.2 Предсказание распространения COVID-19 41
3.3 Выводы по главе 47
ЗАКЛЮЧЕНИЕ 48
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 49
В декабре 2019 г. в Китае зарегистрирована серия необъяснимых случаев пневмонии [1]. Последующие исследования выявили новый штамм коронавируса SARS-CoV-2, который является возбудителем острого инфекционного заболевания Coronavirus disease 2019 (COVID-19). За
короткий период времени эпидемия новой коронавирусной инфекции переросла в пандемию, охватившую более 200 стран мира. За два с половиной года пандемии вирус успел мутировать несколько раз, в связи с этим количество заболевших изменялось множество раз [2]. Отдельные страны пострадали сильнее от коронавирусной инфекции, другие - меньше.
На данный момент известны основные способы лечения от коронавирусной инфекции и во многих странах смягчаются меры защиты от коронавирусной инфекции, начинают открываться границы между странами. Для туристов появляется множество возможностей для посещения других стран, но как выбрать страну наиболее благоприятную для посещения? Конкретного решения этой проблемы сейчас не существует, однако имеется набор статистических данных с информацией о заражениях, прививках, смертях и другой информацией о COVID-19 по каждой стране. Данные по ежедневной статистике в странах мира обновляются с 31.12.2019 г. ежедневно. На сегодняшний день существует множество подходов и алгоритмов машинного обучения для определения текущего уровня опасности и прогноза уровня опасности наперед. Таким образом, задача ставится сама собой - необходимо построить такую систему, которая будет ранжировать страны по уровню опасности между друг-другом и прогнозировать на определенное количество дней вперед, будет ли безопасно посещать ту или иную страну.
В данной работе рассматривается проблема диагностики и предсказания эпидемиологической ситуации в странах мира, связанной с распространением коронавирусной инфекции 2019-nCoV. Объектом исследования будут являться открытые данные, размещенные на портале портала https://github.com/owid. Предметом исследования является анализ 5
различных методов и алгоритмов машинного обучения для кластеризации, классификации и регрессии, и выбора оптимального метода для решаемой задачи.
Таким образом целью работы является разработка системы распознавания стран по уровню опасности и построение прогноза уровня опасности на заданное количество дней с помощью методов машинного обучения.
Для достижения поставленной цели в работе необходимо решить следующие задачи:
- изучить научные статьи и литературу, посвященные алгоритмам машинного обучения, рассмотреть существующие методы работы с подобными данными;
- построить исходный набор данных на основании файла owid-
covid-data.csv репозитория https://github.com/owid, содержащего
статистические данные об эпидемиологической ситуации в различных странах;
- выделить из набора данных значимые атрибуты для прогнозирования классов - уровней опасности;
- выполнить кластеризацию данных на три кластера в соответствии с уровнями опасности в соответствующий период времени;
- построить модели классификации данных и подобрать наиболее удачные признаки для выполнения классификации;
- построить регрессионную модель для предсказания новых случаев заражения в различных странах;
- визуализировать работу регрессионной модели на 30 дней вперед, начиная с текущего.
При проведении исследования использовались следующие методы: анализ литературных источников с подобными примерами обработки данных, методы интеллектуального анализа и машинного обучения для выполнения кластеризации, классификации и регрессии, проведение экспериментов по сравнению эффективности работы различных методов обработки, кластеризации, классификации и регрессии используемых моделей.
Научной новизной обладают следующие результаты исследования:
1. Предложенный алгоритм кластеризации данных, основанный на использовании метода TSNE и алгоритма k-means.
2. Предложенный алгоритм классификации данных, основанный на использовании метода энтропии (Mutual information) и алгоритма случайный лес.
3. Предложенный алгоритм прогнозирования для определения уровня опасности с помощью рекуррентных нейронных сетей.
Практическая значимость исследования: разработанный алгоритм предсказания уровней опасности для различных стран поможет вовремя оценить уровень распространения коронавирусной инфекции и предупредить туристов от посещения стран, в которых присутствует большая вероятность заражения. Разработанная система позволит сократить скорость распространения коронавирусной инфекции и в будущем свести ее на нет.
Основная часть магистерской диссертации состоит из трех разделов: в первом разделе рассматриваются алгоритмы кластеризации и методы очистки данных от пустых и неинформативных признаков; во втором разделе подбираем наилучшую модель для классификации данных и производим отбор наиболее значимых признаков для обучения; в третьем разделе строим регрессионную модель и прогнозируем количество новых случаев заражения на заданное количество дней вперед.
короткий период времени эпидемия новой коронавирусной инфекции переросла в пандемию, охватившую более 200 стран мира. За два с половиной года пандемии вирус успел мутировать несколько раз, в связи с этим количество заболевших изменялось множество раз [2]. Отдельные страны пострадали сильнее от коронавирусной инфекции, другие - меньше.
На данный момент известны основные способы лечения от коронавирусной инфекции и во многих странах смягчаются меры защиты от коронавирусной инфекции, начинают открываться границы между странами. Для туристов появляется множество возможностей для посещения других стран, но как выбрать страну наиболее благоприятную для посещения? Конкретного решения этой проблемы сейчас не существует, однако имеется набор статистических данных с информацией о заражениях, прививках, смертях и другой информацией о COVID-19 по каждой стране. Данные по ежедневной статистике в странах мира обновляются с 31.12.2019 г. ежедневно. На сегодняшний день существует множество подходов и алгоритмов машинного обучения для определения текущего уровня опасности и прогноза уровня опасности наперед. Таким образом, задача ставится сама собой - необходимо построить такую систему, которая будет ранжировать страны по уровню опасности между друг-другом и прогнозировать на определенное количество дней вперед, будет ли безопасно посещать ту или иную страну.
В данной работе рассматривается проблема диагностики и предсказания эпидемиологической ситуации в странах мира, связанной с распространением коронавирусной инфекции 2019-nCoV. Объектом исследования будут являться открытые данные, размещенные на портале портала https://github.com/owid. Предметом исследования является анализ 5
различных методов и алгоритмов машинного обучения для кластеризации, классификации и регрессии, и выбора оптимального метода для решаемой задачи.
Таким образом целью работы является разработка системы распознавания стран по уровню опасности и построение прогноза уровня опасности на заданное количество дней с помощью методов машинного обучения.
Для достижения поставленной цели в работе необходимо решить следующие задачи:
- изучить научные статьи и литературу, посвященные алгоритмам машинного обучения, рассмотреть существующие методы работы с подобными данными;
- построить исходный набор данных на основании файла owid-
covid-data.csv репозитория https://github.com/owid, содержащего
статистические данные об эпидемиологической ситуации в различных странах;
- выделить из набора данных значимые атрибуты для прогнозирования классов - уровней опасности;
- выполнить кластеризацию данных на три кластера в соответствии с уровнями опасности в соответствующий период времени;
- построить модели классификации данных и подобрать наиболее удачные признаки для выполнения классификации;
- построить регрессионную модель для предсказания новых случаев заражения в различных странах;
- визуализировать работу регрессионной модели на 30 дней вперед, начиная с текущего.
При проведении исследования использовались следующие методы: анализ литературных источников с подобными примерами обработки данных, методы интеллектуального анализа и машинного обучения для выполнения кластеризации, классификации и регрессии, проведение экспериментов по сравнению эффективности работы различных методов обработки, кластеризации, классификации и регрессии используемых моделей.
Научной новизной обладают следующие результаты исследования:
1. Предложенный алгоритм кластеризации данных, основанный на использовании метода TSNE и алгоритма k-means.
2. Предложенный алгоритм классификации данных, основанный на использовании метода энтропии (Mutual information) и алгоритма случайный лес.
3. Предложенный алгоритм прогнозирования для определения уровня опасности с помощью рекуррентных нейронных сетей.
Практическая значимость исследования: разработанный алгоритм предсказания уровней опасности для различных стран поможет вовремя оценить уровень распространения коронавирусной инфекции и предупредить туристов от посещения стран, в которых присутствует большая вероятность заражения. Разработанная система позволит сократить скорость распространения коронавирусной инфекции и в будущем свести ее на нет.
Основная часть магистерской диссертации состоит из трех разделов: в первом разделе рассматриваются алгоритмы кластеризации и методы очистки данных от пустых и неинформативных признаков; во втором разделе подбираем наилучшую модель для классификации данных и производим отбор наиболее значимых признаков для обучения; в третьем разделе строим регрессионную модель и прогнозируем количество новых случаев заражения на заданное количество дней вперед.
В данной работе рассмотрены традиционные методы построения множества алгоритмов машинного обучения для очистки и отбора данных, кластеризации данных, классификации объектов и построения прогноза с помощью регрессионного анализа. Основная сложность была в том, чтобы подобрать правильный алгоритм для построения прогноза на некоторый промежуток времени вперед. Все дело в том, что данные нельзя назвать зависимыми от каких-либо факторов, кроме как выявления нового штамма COVID-19.
Основными результатами работы является:
- Рассмотрены и изучены различные методы и алгоритмы машинного обучения, нормализации данных, отбора информативных признаков, определены наилучшие методы и модели под исследуемый набор данных.
- Построена регрессионная модель, способная с высокой точностью предсказать на определенный временной промежуток времени вперед количество новых случаев заражения коронавирусной инфекцией в конкретной стране. С помощью разработанной модели можно определить наиболее благоприятную для посещения страну для туристов.
Разработанную систему можно использовать для следующих целей:
1. Моментально диагностировать по последним статистическим данным эпидемиологическую ситуацию в странах мира;
2. Предсказывать новые случаи заражения в странах мира на некоторый промежуток времени вперед.
Выполненная работа несет пользу для каждого туриста, который запланирует отдых за рубежом.
Основными результатами работы является:
- Рассмотрены и изучены различные методы и алгоритмы машинного обучения, нормализации данных, отбора информативных признаков, определены наилучшие методы и модели под исследуемый набор данных.
- Построена регрессионная модель, способная с высокой точностью предсказать на определенный временной промежуток времени вперед количество новых случаев заражения коронавирусной инфекцией в конкретной стране. С помощью разработанной модели можно определить наиболее благоприятную для посещения страну для туристов.
Разработанную систему можно использовать для следующих целей:
1. Моментально диагностировать по последним статистическим данным эпидемиологическую ситуацию в странах мира;
2. Предсказывать новые случаи заражения в странах мира на некоторый промежуток времени вперед.
Выполненная работа несет пользу для каждого туриста, который запланирует отдых за рубежом.





