Аннотация 2
ВВЕДЕНИЕ 5
1 АНАЛИЗ ПЕРСПЕКТИВ РАЗВИТИЯ АЛГОРИТМОВ СНИЖЕНИЯ ПРИЗНАКОВОГО ПРОСТРАНСТВА 7
2 РАЗРАБОТКА АЛГОРИТМА СНИЖЕНИЯ ПРИЗНАКОВОГО ПРОСТРАНСТВА ДЛЯ ВРЕМЕННЫХ РЯДОВ 9
2.1 Математический аппарат 9
2.2 Источник данных для анализа 10
2.3 Источник данных для анализа 12
2.4 Оценка точности прогнозов, построенных по предложенной модели 23
3 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ПРЕДЛОЖЕННЫХ РЕШЕНИЙ 25
3.1 Особенности разработанного программного обеспечения 25
3.2 Описание программного кода 25
ЗАКЛЮЧЕНИЕ 44
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 46
Всемирной организация здравоохранения в этом году была объявлена чрезвычайная ситуация связанная с распространением коронавирусной инфекции COVID-19.
Коронавирусная инфекция COVID-19 приводит к необратимым изменениям в тканях легких человека, а при возникновении осложнений может привести к смерти. На момент написание данной бакалаврской работы в мире уже зарегистрировано более 3 миллионов случаев заражения коронавирусом. Помимо биологических угроз вирус COVID-19 приводит и к негативным экономическим последствиям. Это объясняется тем, что во многих странах мира для обеспечения безопасности населения вводится карантин или меры по ограничению передвижения людей. Многих сотрудников переводят на дистанционную форму работы. В связи с этим останавливаются многие производства, закрывается большое количество малых и средних предприятий. Это приводит к снижению роста экономик большинства развивающихся стран.
Для минимизации вреда силы многих исследователей были брошены на изучение различных явлений, связанных с COVID-19. Современные работы в области анализа данных направлены на исследования способов ранней диагностики COVID-19, определение групп риска людей на основе анализа статистики, прогнозирования тяжести протекания заболевания, а также определения дат снижения прироста числа заболевших. Таким образом, любые исследования связанные с COVID-19 в настоящее время являются актуальными.
В данной бакалаврской работе исследуется способы прогнозирования распространения вирусной инфекции COVID-19
Целью работы является разработка алгоритма прогнозирования распространения вирусной инфекции COVID-19 на основе статистического анализа данных.
В работе предложен алгоритм прогнозирования распространения вирусной инфекции COVID-19, который заключается в выполнении следующих шагов. Загрузка статистических данных Всемирной организации здравоохранения о ежедневном количестве зарегистрированных смертей от вируса (отдельно по каждой стране). Затем, аппроксимация полученных данных логистической функцией путем подбора параметров функции методом наименьших квадратов. Так как динамика распространения COVID- 19 внутри каждой страны уникальна, то и параметры логистической функции для каждой страны свои собственные. Затем полученные функции используются для оценки изменения количества смертей по каждой стране в ближайшее время.
В рамках данных исследования было разработано программное обеспечение, позволяющее получать актуальные данные о количестве зарегистрированных смертей по вирусу COVID-19 и пересчитывать, с учетом новых данных, параметры логистических функций. Результат аппроксимации исходных данных представляется графически в виде графиков временных рядов: количество зарегистрированных смертей в зависимости от даты и прирост количества зарегистрированных смертей в зависимости от даты.
По результатам собранных материалов, проведенных теоретических и практических исследований можно сформулировать следующие основные выводы.
1. Актуальность темы обусловлена заявлением Всемирной организацией здравоохранения о признании COVID-19 в 2020 году пандемией. Поэтому все исследования, направленные на изучение особенностей распространения COVID-19, являются в настоящее время актуальными.
2. Обзор литературных источников показал, что современные работы в области анализа данных направлены на исследования способов ранней диагностики COVID-19, определение групп риска на основе анализа статистики, прогнозирования тяжести протекания заболевания, а также определения дат снижения прироста числа заболевших.
3. В работе предложен алгоритм прогнозирования распространения вирусной инфекции COVID-19, который заключается в выполнении следующих шагов. Загрузка статистических данных Всемирной организации здравоохранения о ежедневном количестве зарегистрированных смертей от вируса (отдельно по каждой стране). Затем аппроксимация полученных данных логистической функцией путем подбора параметров функции методом наименьших квадратов. Так как динамика распространения COVID- 19 внутри каждой страны уникальна, то и параметры логистической функции для каждой страны свои собственные. Затем полученные функции используются для оценки изменения количества смертей по каждой стране в ближайшее время.
4. Результаты исследований точности прогнозирования с использованием предложенных подходов показали следующее. Получаемые прогнозы на основе логистических функций обладают приемлемой точностью в краткосрочной перспективе (до 1 недели, точность 85%). С увеличением временного интервала от даты последнего получения фактических данных по COVID-19 точность прогнозирования уменьшается.
5. В рамках данного исследования на языке Python c использованием библиотек pandas, numpy, scipy, matplotlib, datetime было разработано программное обеспечение, позволяющее получать актуальные данные о количестве зарегистрированных смертей по вирусу COVID-19 и пересчитывать с учетом новых данных параметры логистических функций. Результат аппроксимации исходных данных представляется графически в виде графиков временных рядов: количество зарегистрированных смертей в зависимости от даты и прирост количества зарегистрированных смертей в зависимости от даты. При этом в программном обеспечении есть возможность получения прогноза на указанную дату.
Таким образом, все поставленные задачи были выполнены и поставленная цель бакалаврской работы достигнута.
1. Аверкин, А.Н. Гибридный подход для прогнозирования временных рядов на основании нейросети ANFIS и нечетких когнитивных карт / А.Н. Аверкин, С.А. Ярушев // Международная конференция по мягким вычислениям и измерениям. - Санкт-Петербург : Издатель Санкт- Петербургский государственный электротехнический университет "ЛЭТИ" им. В.И. Ульянова (Ленина) (Санкт-Петербург), 2017. - С. 467-470. - Текст: непосредственный.
2. Басинский, В.М. Алгоритм муравьиной колонии при решении задачи классификации и использование генетического алгоритма для подбора его параметров / В.М. Басинский, Ю.Г. Степин // Информационно - коммуникационные технологии: достижения, проблемы, инновации (ИКТ- 2018) Электронный сборник статей I международной научно-практической конференции, посвященной 50-летию Полоцкого государственного университета. 2018. - Новополоцк : Издатель Учреждение образования «Полоцкий государственный университет», 2018. - С. 118-122. - Текст : непосредственный.
3. Буланов, О. Тестирование гипотезы о многообразии / О. Буланов, Ю. Янович // Информационные технологии и системы 2017 (ИТИС 2017). Уфа, 14-17 сентября 2017 г. - Уфа : Издатель Институт проблем передачи информации им. А.А. Харкевича РАН, Москва, 2017. - P. 41 - 48. - Текст : непосредственный.
4. Вельдяйкин, Н. Алгоритм laplacian eigenmaps для точек вне обучающей выборки / Н. Вельдяйкин, Ю. Янович // Информационные технологии и системы 2017 (ИТИС 2017)Уфа, 14-17 сентября 2017 г. - Уфа : Издатель Институт проблем передачи информации им. А.А. Харкевича РАН, Москва, 2017. - P. 74 - 80. - Текст : непосредственный.
5. Дорофеюк, А.А. Методология структурно-классификационного исследования сложно организованной информации в задачах интеллектуального анализа данных / А.А. Дорофеюк, А.Ю. Дорофеюк, // XII всероссийское совещание по проблемам управления ВСПУ-2014. Москва, 1619 июля 2014 г. - Москва : Издатель Институт проблем управления им. В.А. Трапезникова РАН Москва, 2014. - С. 8369 - 8381. - Текст : непосредственный.
6. Ильина, М.А. Универсальный алгоритм визуализации решений задачи классификации / М.А. Ильина, А.А. Тузовский // Современные проблемы естественных и технических наук. Новосибирск, 24-25 мая 2016 г. - Новосибирск : Издатель Новосибирский государственный архитектурностроительный университет Сибстрин, Новосибирск, 2016. - С. 46 - 50. - Текст : непосредственный.
7. Рыцарев, И.А. Применение метода главных компонент для выявления семантических различий и анализа изменения положения в пространстве при анализе информационного контента сетевых сообществ / И.А. Рыцарев, Р.А. Парингер, А.В. Куприянов // V международная конференция и молодежная школа "информационные технологии и нанотехнологии". Самара, 21-24 мая 2019 г. - Самара : Издатель Новая техника , Самара, 2019. - С. 780 - 787. - Текст : непосредственный.
8. Сидорова, В.А. Выбор размерности и детальности данных дистанционного зондирования земли при кластеризации гистограммным иерархическим алгоритмом / В.А. Сидорова // Актуальные проблемы вычислительной и прикладной математики, Новосибирск, 19-23 октября 2015 г.- Новосибирск : Издатель Институт вычислительной математики и математической геофизики СО РАН, Новосибирск, 2015. - P. 664 - 669. - Текст : непосредственный.
9. Чульдум, А.Ф. Пример создания C# .NET приложения для прогнозирования временного ряда с использованием адаптивной нейро- нечеткой системы вывода-ANFIS / А.Ф. Чульдум, У.А. Чульдум // Информатизация образования: история, проблемы и перспективы сборник материалов Всероссийской научно-практической конференции, посвященной 70-летию со дня рождения первого ректора Тувинского государственного университета О.Б. Бузур-оола. 2016. - Кызыл : Издатель: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Тувинский государственный университет", 2016. - С. 38-41. - Текст : непосредственный.
10. Agarwal, I. TensorFlow for Doctors / Isha Agarwal, Rajkumar Kolakaluri, Michael Dorin, Mario Chong // Annual International Symposium on Information Management and Big Data SIMBig 2019: 6th International Conference, SIMBig 2019, Lima, Peru, August 21-23, 2019, Proceedings. - Springer Nature Switzerland AG, 2020 - pp. 76-88. - Text : direct.
11. Cho, Y.-J. Rule Generation Using NN and GA for SARS-CoV Cleavage Site Prediction / Yeon-Jin Cho, Hyeoncheol Kim // International Conference on Knowledge-Based and Intelligent Information and Engineering Systems KES 2005 - Knowledge-Based Intelligent Information and Engineering Systems: 9th International Conference, Melbourne, Australia, September 14-16, 2005, Proceedings, Part III. - Springer-Verlag Berlin Heidelberg, 2005. - pp. 785791. - Text : direct.
12. Cho, Y.-J. Cleavage Site Analysis Using Rule Extraction from Neural Networks / Yeun-Jin Cho, Hyeoncheol Kim // International Conference on Natural Computation ICNC 2005 - Advances in Natural Computation: First International Conference, Changsha, China, August 27-29, 2005, Proceedings, Part I. - Springer-Verlag Berlin Heidelberg, 2005 - pp. 1002-1008. - Text : direct.
13. John, M. Shiny Framework Based Visualization and Analytics Tool for Middle East Respiratory Syndrome / Maya John, Hadil Shaiba // International Conference on Computing ICC 2019 - Advances in Data Science, Cyber Security and IT Applications: First International Conference on Computing, Riyadh, Saudi Arabia, December 10-12, 2019, Proceedings, Part I. - Springer Nature Switzerland AG, 2019. - pp. 193-202. - Text : direct.
14. Li, X. Method for Recognition Pneumonia Based on Convolutional Neural Network / L. Xin, D. Gao, H. Hao // International Conference of Pioneering Computer Scientists, Engineers and Educators: 5th International Conference of Pioneering Computer Scientists, Engineers and Educators, ICPCSEE 2019, Guilin, China, September 20-23, 2019, Proceedings, Part II. - Singapore: Springer Nature Singapore Pte Ltd., 2019. - P. 142-156. - Text : direct.
15. Li, J. Classification and Characteristics of TCM Syndromes of Chronic Respiratory Failure Based on Self-adaptive Fuzzy Inference System / Jiansheng Li, Haifeng Wang, Jinliang Hu, Jiehua Wang, Suyun Li, Minghang Wang, Ya Li // International Conference on Intelligent Computing ICIC 2010 - Advanced Intelligent Computing Theories and Applications: 6th International Conference on Intelligent Computing, ICIC 2010, Changsha, China, August 18-21, 2010. Proceedings. - Springer-Verlag Berlin Heidelberg, 2010. - pp. 266-272. - Text : direct.
...