ВВЕДЕНИЕ 6
1 АНАЛИТИЧЕСКАЯ ЧАСТЬ 9
1.1 Основные цели и задачи Министерства культуры 9
1.2 Главные проекты Министерства культуры 10
1.2.1 Год культуры 10
1.2.2 Год литературы 11
1.2.3 Год российского кино 11
1.2.4 Год театра 12
1.3 Реконструкция и реставрация 13
1.4 Развитие театров 13
1.5 Развитие музеев 14
1.6 Развитие кино 15
1.7 Информационные технологии культуры 15
1.8 Влияние COVID-19 на проведение мероприятий 16
1.9 Обзор данных 17
2 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 18
2.1 Технология Data Mining 18
2.2 Процесс внедрения Data Mining 19
2.2.1 Анализ предметной области 20
2.2.2 Проверка данных 21
2.2.3 Подготовка данных 21
2.2.4 Построение моделей 24
2.2.5 Проверка и оценка моделей 25
2.2.6 Представление полученных знаний 27
2.3 Задачи Data Mining 27
2.4 Методы Data Mining 31
2.4.1 Нейронные сети 31
2.4.2 Линейная регрессия 31
2.4.3 Автокорреляционная функция 32
2.4.4 Деревья решений 33
2.4.5 Полиномиальная нейронная сеть 33
2.4.6 Метод k-ближайших соседей 34
2.4.7 Методы визуализации 34
2.5 Языки программирования для работы с Big Data 35
2.5.1 Python 36
2.5.2 R 36
2.5.3 Java 37
2.5.4 SQL 37
2.5.5 Julia 37
2.5.6 Scala 38
2.5.7 MATLAB 38
2.5.8 TensorFlow 39
2.6 Преимущества языка программирования Python 3 39
2.6.1 Встроенные функции и методы 42
2.6.2 Модуль PyLab 43
2.6.3 Matplotlib для визуализации в Python 44
3 ПРОЕКТНАЯ ЧАСТЬ 47
3.1 Подготовка данных 47
3.2 Построение первоначальной модели 53
3.2.1 Мероприятия за каждый год и месяц 53
3.2.2 Автокорреляционная функция 61
3.2.3 Анализ категорий 63
3.2.4 Кросс-факторный анализ 68
3.2.5 Виртуальные и онлайн мероприятия 70
3.2.6 Стоимость посещения 72
3.2.7 Исходная модель 75
3.3 Проверка исходной модели на данных 75
3.3.1 Мероприятия за каждый месяц 76
3.3.2 Распределение мероприятий по категориям 77
3.3.3 Распределение мероприятий по тепловой карте 78
3.3.4 Онлайн мероприятия в 2020 году 79
3.3.5 Стоимость посещения в 2020 году 79
3.3.6 Итоговая модель 81
3.4 Рекомендации по дальнейшему развитию 82
ЗАКЛЮЧЕНИЕ 84
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 86
ПРИЛОЖЕНИЕ
Министерство культуры Российской Федерации (Минкультуры России) является федеральным органом исполнительной власти, осуществляющим функции по выработке и реализации государственной политики и нормативно - правовому регулированию в сфере культуры, искусства, культурного наследия (в том числе археологического наследия), кинематографии, туристской деятельности, авторского права и смежных прав и функции по управлению государственным имуществом и оказанию государственных услуг в сфере культуры и кинематографии, а также по охране культурного наследия, авторского права и смежных прав, по контролю и надзору в указанной сфере деятельности.
В сфере туристской деятельности Минкультуры России осуществляет координацию и контроль деятельности подведомственного ему Федерального агентства по туризму. В сфере международной деятельности и продвижения российской культуры за рубежом Минкультуры России взаимодействует с Министерством иностранных дел Российской Федерации.
При выработке государственной политики и нормативно-правовом регулировании в сфере образования в области культуры и искусства Министерство культуры Российской Федерации осуществляет свою деятельность во взаимодействии с другими федеральными органами исполнительной власти, в том числе с Министерством образования и науки Российской Федерации. Минкультуры России осуществляет государственный контроль и надзор за соблюдением требований законодательства Российской Федерации в сфере защиты детей от информации, причиняющей вред их здоровью и (или) развитию, к обороту информационной продукции, относящейся к аудиовизуальной продукции, на любых видах носителей.
Начиная с 2014 года, Министерство культуры Российской Федерации начало публиковать данные о проведенных мероприятиях в открытом доступе.
Минкультуры России разделило первое место с Минфином России в интегральном рейтинге открытых данных, что свидетельствует как о высоком качестве раскрываемых данных, так и об их востребованности.
Интегральный рейтинг публикации информации в формате открытых данных учитывает все показатели публикационной активности, востребованности, качества опубликованных наборов, а также степень выполнения требований законодательства.
До настоящего момента цели и задачи Минкультуры России в рамках реализации государственной политики в закрепленной сфере в наибольшей степени определялись содержанием Государственной программы «Развитие культуры и туризма» на 2013-2020 годы, а также Федеральными целевыми программами, в выполнении которых оно принимало участие. После принятия Стратегии государственной культурной политики возникла необходимость гармонизации целей и задач Государственной и федеральных целевых программ с положениями и требованиями утвержденной Стратегии [1].
Довольно ценной особенностью интеллектуального анализа данных является возможность получение ответов на широкий спектр вопросов. Ведь с его помощью можно не только определить степень развития в данной сфере и количество мероприятий за определенный промежуток времени, но и понять наиболее популярные направления, в зависимости от множества факторов. Более того, с помощью такого анализа можно определить направление дальнейшего развития.
Следовательно, интеллектуальный анализ больших данных в сфере мероприятий министерства культуры РФ будет также практически применим и будет иметь цену для самого Минкультуры РФ.
Цель работы - анализ данных мероприятий министерства культуры РФ с использованием технологий Big Data.
Для достижения поставленной цели были определены следующие задачи:
1. Анализ деятельности Минкультуры РФ.
2. Подготовка данных для анализа.
3. Построение исходной модели.
4. Проверка корректности модели на имеющихся данных.
5. Произведение корректировки модели.
6. Формирование рекомендаций и итоговой модели.
Объектом работы является Министерство культуры Российской Федерации.
Предметом исследования являются данные Министерства культуры Российской Федерации о проведенных мероприятиях по всей России, содержащие в себе более 550 тысяч записей за последние 6 лет. Данные включают в себя более 120 параметров, включая: начало мероприятия, его название, краткое описание, место проведения и т.д.
В рамках данной работы использовались такие техники, как интеллектуальный анализ больших данных (Big Data Mining), визуализация данных, кросс-факторный анализ данных.
Основными источниками данных для анализа, являются портал открытых данных Министерства культуры Российской Федерации и официальный сайт Министерства культуры.
Данная работа в итоге включает в себя три части: (1) Аналитическую часть: основные цели и задачи Министерства культуры, проекты и развитие; (2) Теоретическую часть: ознакомление с технологией Data Mining, выбор основного метода и инструмента; (3) Проектную часть: интеллектуальный анализ больших данных мероприятий Министерства культуры Российской Федерации, составление итоговой модели, практическая значимость полученной модели, анализ проведенных мероприятий.
В Аналитической части были рассмотрены основные действия Министерства культуры по развитию различных сфер культуры и приобщению граждан к мировому культурному и природному наследию.
В Теоретической части был произведен обзор технологий и методов Big Data. Были сгруппированы задачи интеллектуального анализа данных, а именно: классификация, кластеризация, ассоциация, регрессия,
прогнозирование, анализ последовательности, анализ отклонений. Среди методов были выявлены: нейронные сети, линейная регрессия, деревья решений, полиномиальная нейронная сеть, метод k-ближайшего соседа, методы визуализации.
В ходе работы было принято решение использовать визуализацию, так как она играет важную роль в анализе данных и помогает интерпретировать большие данные в структуре реального времени .
Основным инструментом для проведения анализа был язык программирования Python 3, а в качестве платформы - Jupyter Notebook. Так как основным методом выбрана визуализация данных, то было принято решение использовать библиотеки Pandas, Numpy, Matplotlib и Seaborn для построения графиков и диаграм.
В заключающей Проектной части были использованы данные Министерства культуры по проведенным мероприятиям за 2015-2020 года. Данные были подготовлены и преобразованы для анализа. Далее была 84
построена исходная и итоговая модели, затем произошла ее проверка на данных за первые пять месяцев 2020 года.
В результате было выявлено, что количество проводимых мероприятий зависит от времени года. Наиболее популярным месяцем для проведения мероприятий является ноябрь, после него количество мероприятий постепенно уменьшается, доходя до минимума в январе. После января количество проводимых событий снова постепенно увеличивается и доходит до второго максимума в апреле, далее постепенно уменьшаясь и доходя до второго минимума в июле. Большое количество мероприятий приходится на праздники: День народного единства, Всемирный день ребенка, День книги.
Также были выведены наиболее популярные категории и категории, продолжающие развиваться: встречи, обучение. Выяснилось, что количество мероприятий постепенно увеличивается с каждым годом, единственным исключением является категория «Спектакли», в которой количество мероприятий уменьшилось в 2018 году, однако 2019 год был объявлен Годом театра, что вновь поспособствовало росту.
Цена за определенные категории постепенно понижается: обучение, встречи, праздники, прочие. «Спектакли» напротив растут в цене, а стоимость по категориям «Концерты» и «Выставки» колеблется с каждым годом то возрастая, то понижаясь.
Также стоит отметить, что готовность к переходу в режим онлайн сильно повлияла на деятельность Минкультуры в апреле 2020 года, так как не все события были перенесены в онлайн, что сильно сказалось на статистике. Количество мероприятий в апреле резко уменьшилось и достигло минимума в этом году, что несвойственно для предыдущих лет. В связи с данной ситуацией, данные за 2020 год сильно отличаются от предыдущих лет, однако в 2021 году должны произойти значительные улучшения и готовность к определенным трудностям, связанных с введением карантина и самоизоляцией.