🔍 Поиск готовых работ

🔍 Поиск работ

ОПРЕДЕЛЕНИЕ ЭПИДЕМИОЛОГИЧЕСКОЙ ОПАСНОСТИ И ПРОГНОЗИРОВАНИЕ РАСПРОСТРАНЕНИЯ COVID-19 В СТРАНАХ МИРА НА ОСНОВЕ ОТКРЫТЫХ ДАННЫХ

Работа №195323

Тип работы

Магистерская диссертация

Предмет

математика

Объем работы55
Год сдачи2022
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
35
Не подходит работа?

Узнай цену на написание


Аннотация
ОПРЕДЕЛЕНИЯ 3
ВВЕДЕНИЕ 5
1 Постановка задачи и подготовка данных 8
1.1 Постановка задачи 8
1.2 Отбор признаков 9
1.3 Восстановление пропущенных значений 15
1.4 Кластеризация набора данных 15
1.5 Выводы по главе 25
2 Ранжирование стран по уровню опасности 27
2.1 Обзор алгоритмов классификации 27
2.2 Практические исследования для определения уровня опасности 33
2.3 Выводы по главе 34
3 Предсказание распространения COVID-19 в разных странах 35
3.1 Обзор алгоритмов и методов регрессионного анализа 35
3.2 Предсказание распространения COVID-19 41
3.3 Выводы по главе 47
ЗАКЛЮЧЕНИЕ 48
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 49

В декабре 2019 г. в Китае зарегистрирована серия необъяснимых случаев пневмонии [1]. Последующие исследования выявили новый штамм коронавируса SARS-CoV-2, который является возбудителем острого инфекционного заболевания Coronavirus disease 2019 (COVID-19). За
короткий период времени эпидемия новой коронавирусной инфекции переросла в пандемию, охватившую более 200 стран мира. За два с половиной года пандемии вирус успел мутировать несколько раз, в связи с этим количество заболевших изменялось множество раз [2]. Отдельные страны пострадали сильнее от коронавирусной инфекции, другие - меньше.
На данный момент известны основные способы лечения от коронавирусной инфекции и во многих странах смягчаются меры защиты от коронавирусной инфекции, начинают открываться границы между странами. Для туристов появляется множество возможностей для посещения других стран, но как выбрать страну наиболее благоприятную для посещения? Конкретного решения этой проблемы сейчас не существует, однако имеется набор статистических данных с информацией о заражениях, прививках, смертях и другой информацией о COVID-19 по каждой стране. Данные по ежедневной статистике в странах мира обновляются с 31.12.2019 г. ежедневно. На сегодняшний день существует множество подходов и алгоритмов машинного обучения для определения текущего уровня опасности и прогноза уровня опасности наперед. Таким образом, задача ставится сама собой - необходимо построить такую систему, которая будет ранжировать страны по уровню опасности между друг-другом и прогнозировать на определенное количество дней вперед, будет ли безопасно посещать ту или иную страну.
В данной работе рассматривается проблема диагностики и предсказания эпидемиологической ситуации в странах мира, связанной с распространением коронавирусной инфекции 2019-nCoV. Объектом исследования будут являться открытые данные, размещенные на портале портала https://github.com/owid. Предметом исследования является анализ 5
различных методов и алгоритмов машинного обучения для кластеризации, классификации и регрессии, и выбора оптимального метода для решаемой задачи.
Таким образом целью работы является разработка системы распознавания стран по уровню опасности и построение прогноза уровня опасности на заданное количество дней с помощью методов машинного обучения.
Для достижения поставленной цели в работе необходимо решить следующие задачи:
- изучить научные статьи и литературу, посвященные алгоритмам машинного обучения, рассмотреть существующие методы работы с подобными данными;
- построить исходный набор данных на основании файла owid-
covid-data.csv репозитория https://github.com/owid, содержащего
статистические данные об эпидемиологической ситуации в различных странах;
- выделить из набора данных значимые атрибуты для прогнозирования классов - уровней опасности;
- выполнить кластеризацию данных на три кластера в соответствии с уровнями опасности в соответствующий период времени;
- построить модели классификации данных и подобрать наиболее удачные признаки для выполнения классификации;
- построить регрессионную модель для предсказания новых случаев заражения в различных странах;
- визуализировать работу регрессионной модели на 30 дней вперед, начиная с текущего.
При проведении исследования использовались следующие методы: анализ литературных источников с подобными примерами обработки данных, методы интеллектуального анализа и машинного обучения для выполнения кластеризации, классификации и регрессии, проведение экспериментов по сравнению эффективности работы различных методов обработки, кластеризации, классификации и регрессии используемых моделей.
Научной новизной обладают следующие результаты исследования:
1. Предложенный алгоритм кластеризации данных, основанный на использовании метода TSNE и алгоритма k-means.
2. Предложенный алгоритм классификации данных, основанный на использовании метода энтропии (Mutual information) и алгоритма случайный лес.
3. Предложенный алгоритм прогнозирования для определения уровня опасности с помощью рекуррентных нейронных сетей.
Практическая значимость исследования: разработанный алгоритм предсказания уровней опасности для различных стран поможет вовремя оценить уровень распространения коронавирусной инфекции и предупредить туристов от посещения стран, в которых присутствует большая вероятность заражения. Разработанная система позволит сократить скорость распространения коронавирусной инфекции и в будущем свести ее на нет.
Основная часть магистерской диссертации состоит из трех разделов: в первом разделе рассматриваются алгоритмы кластеризации и методы очистки данных от пустых и неинформативных признаков; во втором разделе подбираем наилучшую модель для классификации данных и производим отбор наиболее значимых признаков для обучения; в третьем разделе строим регрессионную модель и прогнозируем количество новых случаев заражения на заданное количество дней вперед.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе рассмотрены традиционные методы построения множества алгоритмов машинного обучения для очистки и отбора данных, кластеризации данных, классификации объектов и построения прогноза с помощью регрессионного анализа. Основная сложность была в том, чтобы подобрать правильный алгоритм для построения прогноза на некоторый промежуток времени вперед. Все дело в том, что данные нельзя назвать зависимыми от каких-либо факторов, кроме как выявления нового штамма COVID-19.
Основными результатами работы является:
- Рассмотрены и изучены различные методы и алгоритмы машинного обучения, нормализации данных, отбора информативных признаков, определены наилучшие методы и модели под исследуемый набор данных.
- Построена регрессионная модель, способная с высокой точностью предсказать на определенный временной промежуток времени вперед количество новых случаев заражения коронавирусной инфекцией в конкретной стране. С помощью разработанной модели можно определить наиболее благоприятную для посещения страну для туристов.
Разработанную систему можно использовать для следующих целей:
1. Моментально диагностировать по последним статистическим данным эпидемиологическую ситуацию в странах мира;
2. Предсказывать новые случаи заражения в странах мира на некоторый промежуток времени вперед.
Выполненная работа несет пользу для каждого туриста, который запланирует отдых за рубежом.


1. Романов Б. К. Коронавирусная инфекция COVID-2019
//Безопасность и риск фармакотерапии. - 2020. - Т. 8. - №. 1. - С. 3-8.
2. Малинникова Елена Юрьевна Новая коронавирусная инфекция.
Сегодняшний взгляд на пандемию XXI века // Инфекционные болезни: Новости. Мнения. Обучение. 2020. №2 (33). URL:
https://cyberleninka.ru/article/n/novaya-koronavirusnaya-infektsiya- segodnyashniy-vzglyad-na-pandemiyu-xxi-veka (дата обращения: 27.05.2022).
3. Ru Р. E. Новые" коронавирусные" методические рекомендации от Минздрава России //Труд. - 2021. - Т. 17. - С. 44.
4. Кривенко М. П. Критерии значимости отбора признаков классификации //Информатика и её применения. - 2016. - Т. 10. - №. 3. - С. 32-40.
5. Анфилофьев А. Е. и др. Метаэвристические методы отбора информативных классифицирующих признаков //Информационные и математические технологии в науке и управлении. - 2017. - №. 2 (6).
6. Григорьев Е. А., Климов Н. C. Разведочный анализ данных с помощью Python //E-Scio. - 2020. - №. 2 (41). - С. 165-176.
7. Kale S. S., Patil P. S. A machine learning approach to predict crop yield and success rate //2019 IEEE Pune Section International Conference (PuneCon). - IEEE, 2019. - С. 1-5.
8. Hussain M. G., Shiren Y. Recognition of covid-19 disease utilizing x- ray imaging of the chest using cnn //2021 International Conference on Computing, Electronics & Communications Engineering (iCCECE). - IEEE, 2021. - С. 71-76.
9. Тиндова М. Г. Предварительная кластеризация многомерных объектов в интеллектуальном анализе данных //Вестник Саратовского государственного социально-экономического университета. - 2008. - №. 4. - С. 137-138.
10. Старовойтов В. Нормализация данных в машинном обучении //Информатика. - 2021. - Т. 18. - №. 3.
11. Леонтьев В. К. О мерах сходства и расстояниях между объектами //Журнал вычислительной математики и математической физики. - 2009. - Т. 49. - №. 11. - С. 2041-2058.
12. Галимов Р. Г. Основы алгоритмов машинного обучения-обучение без учителя //Аллея науки. - 2017. - Т. 1. - №. 14. - С. 807-809.
13. Рашка С. Python и машинное обучение. - Litres, 2022.
14. Агурова Л. П., Огнева М. В. Анализ эффективности и оптимизация алгоритма k-средних //Компьютерные науки и информационные технологии. - 2018. - С. 11-14.
15. Воронцов К. В. Лекции по алгоритмам кластеризации и многомерного шкалирования //М.: МГУ. - 2007....32


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ