ВВЕДЕНИЕ 3
Актуальность выбранной области 3
Цели и задачи исследования 4
ГЛАВА 1 АНАЛИЗ ПРОБЛЕМАТИКИ ИССЛЕДОВАНИЯ 6
1.1 Особенности спроса на фармацевтическом рынке 6
1.2 Существующие методы прогнозирования 8
1.3 Состояние рынка лекарственных препаратов и структуры заболеваемости в Российской Федерации 11
1.4 Используемые инструменты 13
ГЛАВА 2 СБОР И ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ 14
2.1 Кластеризация регионов России 14
2.2 Изучение принципов работы API 19
2.3 Пример работы API 23
2.4 Выгрузка статистики через WordStat 27
2.4 Чистка данных 33
2.5 Выделение основных групп 35
ГЛАВА 3 ПОСТРОЕНИЕ КРАТКОСРОЧНОГО ПРОГНОЗА 39
ЗАКЛЮЧЕНИЕ 43
Выводы 43
СПИСОК ИСТОЧНИКОВ 45
ПРИЛОЖЕНИЯ 48
Приложение 1 48
Приложение 2 48
Приложение 3 51
Приложение 4 53
Приложение 5 54
Приложение 6 Скрипт прогнозирования экспоненциальным сглаживанием №2 55
Актуальность выбранной области
Актуальность предметной области определяется в первую очередь социальной значимостью исследования, которая выражается в потребности человечества поддерживать свое здоровье в хорошем состоянии. Проблематика экономики как науки определяется попыткой распределить ограниченные ресурсы при неограниченных потребностях, так, подобным образом выражается и главная проблема фармацевтического рынка.
Современный мир на данном этапе не может не удивлять новыми техническими возможностями и продвижениями прикладного использования науки о данных. Новые IT разработки позволяют машинам достигать достаточной вычислительной мощности для работы с огромными массивами данных, зачастую представленных не самым удобным образом.
Однако здравоохранение является достаточно новой сферой применения методов интеллектуального анализа данных. На данный момент существует ряд экспертных систем, помогающих диагностировать заболевания пациентов, осуществляется прогнозирование очагов и масштабов эпидемий, оценивается эффективность различных профилактических мер, а также решается ряд других задач с использованием методов интеллектуального анализа данных. Во многом такие достижения обуславливаются благодаря внедрению и развитию информационных систем в поликлиниках, аптеках и больничных пунктах для более корректного сбора информации о заболеваемости.
Также аналитические инструменты, о которых шла речь, дают возможность фармацевтическим компаниям точнее планировать свою деятельность, например, прогнозируя уровень спроса на те или иные препараты, зависящий от массы факторов: климатических, социальных, демографических, сезонных и др.
Для осуществления подобного планирования предлагается разработка системы, анализирующей динамику показателей, влияющих на ситуацию, и прогнозирующую уровень заболеваемости населения, в первую очередь, связанной с кишечными инфекциями. Одной из ключевых гипотез является предположение, что данные поисковых запросов являются показательными при формировании спроса на товары и услуги в целом и в частности на лекарственные препараты определенного спектра.
Пользователи прогноза: производители фармацевтической продукции, продавцы.
Для производителей прогноз необходим при принятии решений по планированию ассортимента продукции.
Для продавцов прогноз необходим при принятии решений по планированию ассортимента и объема закупок.
Для производителей и продавцов прогноз необходим при принятии решений по формированию необходимого спроса.
Цели и задачи исследования
Цель
Создание комплекса методов оценки уровня заболеваемости населения и спроса на продукты фармацевтической отрасли с использованием интеллектуального анализа данных.
Прогнозирование спроса на фармацевтическую продукцию.
Объект
Спрос на фармацевтическую продукцию и определяющие его факторы.
Предмет
Математические модели прогнозирования спроса.
Задачи:
• исследовать информационные источники, содержащие данные о спросе на фармацевтическую продукцию
• проанализировать структуру спроса на фармацевтическую продукцию определенной группы
• выявить особенности данных, характеризующих спрос на фармацевтическую продукцию выделенной группы
• исследовать существующие методы прогнозирования
• выбрать методы, соответствующие особенностям данных о спросе
• построить модели спроса с использованием выбранных методов
Методы исследования: методы системного анализа, статистические методы, методы интеллектуального анализа данных.
Материалы исследования: данные открытых источников.
В работе были проанализированы особенности спроса на рынке фармацевтической продукции, проведен обзор заболеваемости, рассмотрены различные методы прогнозирования, а также выбрана модель для конкретной решаемой задачи.
Была проведена кластеризация районов Российской Федерации, где для каждого округа были определены наиболее существенные проблемы.
Для сбора данных об Интернет активности пользователей были изучены принципы работы API, осуществлен сбор статистики ретроспективных данных поисковых запросов.
Для маркетинговых исследований был составлен словарь и облако слов.
Полученный информационный пул был очищен от некорректных и незначимых данных. Осуществлена кластеризация поисковых запросов для выделения групп препаратов.
С помощью экспоненциального сглаживания осуществлено прогнозирование временного ряда на последующий месяц.
Итоги проведенной работы представляют ценность для фармацевтических компаний, занимающихся дистрибьюцией антибиотиков и симптоматических лекарственных препаратов на территории Российской Федерации в целом и Северо-Западного округа в частности.
Выводы
По результатам проведённого исследования можно сформулировать следующие выводы:
• Методы интеллектуального анализа данных, могут успешно применяться для прогнозирования уровня заболеваемости.
• Регионы России достаточно четко разбиваются на кластеры по характеру заболеваемости, для каждого кластера можно обозначить наиболее актуальные проблемы.
• Поисковые запросы могут являться одним из факторов, влияющих на спрос на фармацевтические средства.
• Анализ групп поисковых запросов позволяет выделить актуальность различных лекарственных препаратов для населения.
Таким образом, цель работы - создание комплекса методов оценки уровня заболеваемости населения и спроса на продукты фармацевтической отрасли с использованием интеллектуального анализа данных – является достигнутой.
1. Авдонина JI. Н., Гусева Т. В. Письменные работы научного стиля. М.: «Инфра-М», 2012.-72 с.
2. Андреев Г.И., Смирнов С.А., Тихомиров В.А. Основы научной работы и оформление результатов научной деятельности: Учебное пособие. М.: Финансы и статистика, 2003. 272 с.
3. Аптечный рынок Санкт-Петербурга [Электронный ресурс] // Ремедиум. URL: http://www.remedium.ru/analytics (дата обращения: 16.04.2017)
4. Здравоохранение [Электронный ресурс] // Федеральная служба государственной статистики. URL: http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/population/healthcare/# (дата обращения 01.04.17)
5. Статистика инфекционной заболеваемости [Электронный ресурс]// Роспотребнадзор. URL: http://www.rospotrebnadzor.ru/ (дата обращения 01.04.17)
6. Python.Основы и применение [Электронный ресурс] //Stepic.org. URL: https://stepik.org/course/Python--основы-и-применение-512 (дата обращения 17.04.2016)
7. Анализ данных в R [Электронный ресурс] //Stepic.org. URL: https://stepik.org/course/Анализ-данных-в-R-129 (дата обращения 10.04.2016)
8. Кондратьев М. А. Методы прогнозирования и модели распространения заболеваний. // Компьютерные исследования и моделирование. – 2013. -Т. 5, № 5 - С. 863–882.
9. API Яндекс.Директ [Электронный ресурс] URL: https://yandex.ru/adv/edu/direct-api (дата обращения 20.04.2016)
10. Кораблев Ю. А. Моделирование спроса для организации эффективного планирования производства и продаж фармацевтической продукции //Статистика и экономика. – 2011. – №. 5.
11. Льюис К. Д. Методы прогнозирования экономических показателей. – Рипол Классик, 1986.
12. Басовский Л. Е. Прогнозирование и планирование в условиях рынка: учеб. пособие //М.: ИНФРА-М. – 2008.
13. Лукичёва Т.А., Румянцева С.Ю. Методические указания по подготовке и защите курсовых работ студентами бакалавриата по направлению 080100 - «Экономика» /Т.А.Лукичёва, С.Ю.Румянцева; СПб.: Издат.центр экон.ф-та СПбГУ, 2013 - 60 с.
14. Анализ данных в R на примерах и задачах [Электронный ресурс] // Youtube.com. URL: https://www.youtube.com/watch?v=orgXajB6z58&list=PLlb7e2G7aSpTh7pQG8ek1Uv5-zatv84vY (дата обращения 02.05.17)
15. Анализ временных рядов в R. [Электронный ресурс] // Coursera.URL: https://ru.coursera.org/learn/ekonometrika/lecture/Vbs2z/8-2-4-primier-2-i-3-analiz-stoimosti-aktsii-kompanii-gughl-i-chisliennosti (дата обращения: 10.05.2017)
...