ВВЕДЕНИЕ 3
1 МАРКЕТПЛЕЙС 5
2 АНАЛИЗ СО СТОРОНЫ КЛИЕНТОВ 10
2.1 Парсинг 12
2.2 Откидывание столбца событий 14
2.3 Фильтрация данных за период 15
2.4 Агрегация данных за период и избавление от аутлаеров 17
2.5 Агрегация по группам 21
2.6 Метрики и кластеризация 23
3 АНАЛИЗ СО СТОРОНЫ МЕРЧАНТОВ 40
3.1 Агрегация данных за период относительно мерчантов и избавление от аутлаеров 41
3.2 Метрики и кластеризация мерчантов 46
3.3 Пересечение клиентов и мерчантов 51
ЗАКЛЮЧЕНИЕ 57
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 58
ПРИЛОЖЕНИЕ 59
Скрипт connect_setting.py: 59
Скрипт Main_Script.py: 60
Скрипт CSV_Export(Step№1).py: 63
Скрипт Starting_Table(Step№2).py: 65
Скрипт Starting_Table_For_The_Period(Step№3).py: 67
Скрипт Aggregation_Of_Count_And_Sum_Of_Trans_By_Clients(Step№4.1).py: 68
Скрипт Aggregation_Of_Count_And_Sum_Of_Trans_By_Correct_Clients(Step№4.2).py: 69
Скрипт Transaction_Table_Of_Correct_Clients(Step№4.3).py: 71
Скрипт Aggregation_Count_Of_Trans_On_Groups(Step№5).py: 73
Скрипт Create_Procedure_CountOfTransForMonthOnClients(Step№6.1).py: 74
Скрипт Create_Main_Metric_Table_For_Clients(Step№6.2).py: 76
Скрипт Aggregation_Of_Count_And_Sum_Of_Trans_By_Clients_On_Merchants(Step№7.1).py: 84
Скрипт Aggregation_Of_Count_And_Sum_Of_Trans_By_Correct_Clients_On_Merchants(Step№7.2).py:85
Скрипт Transaction_Table_Of_Correct_Clients_On_Merchants(Step№7.3).py: 87
Скрипт Create_Procedure_CountOfTransForMonthOnMerchants(Step№8.1).py: 89
Скрипт Create_Metric_Tables_On_Merchants_Extended(Step№8.2).py: 91
Скрипт Create_Comparison_Tables(Step№9).py:
Сейчас медлительным и неэффективным компаниям, не готовым к переменам, остаётся мало шансов на выживание. Компании должны эволюционировать, их важнейшими преимуществами, активами должны стать информация и знания.
Извлечением информации из данных с последующим формированием в знание занимается аналитика. Под аналитикой подразумевается широкое использование данных количественного и статистического анализа, описательных и прогнозных моделей для принятия решений и действий, на основе реальных признаков и фактов.
Некоторые отрасли, больше других склонны к использованию аналитики. Если в бизнесе генерируется много данных о транзакциях - скажем, это финансовые услуги, перевозки, туризм или игорный бизнес - то конкуренция на основе аналитики является естественной и правильной стратегией. Хотя всё же многие фирмы пренебрегают аналитикой. Если в основе вашей бизнес- модели факторы трудноизмеримы - допустим, человеческие отношения, или стиль, как в индустрии моды - для соперничества на основе аналитики необходимы намного более изобретательные методы и приёмы.
Сотни миллионов транзакций ежедневно проходят через банки, поэтому на серверах накапливаются большие данные: информация о клиентах, шаблоны покупок, правила в целом. Таким образом, банки превращаются в IT- ориентированные компании, как это произошло с телекоммуникационными операторами. Они предоставляют все больше услуг и цифровых сервисов, а собираемые ими данные и извлекаемая из них информация активно используются в создании новых предложений и тех же услуг, и сервисов.
Применить эту информацию можно во множестве сфер и приложений, таких как: классические задачи оптимизации, обработка транзакций, распознавание мошенничества, кибербезопасность, создание персональных финансовых ассистентов.
Современные банки прекрасно понимают чем живут их клиенты и могут моделировать их поведение: будь это социальная группа в конкретном городе, отдельная промышленность или индустрия, или страна в целом. Это информация помогает финансовым учреждениям управлять своими рисками и рисками своих клиентов.
С развитием Data Science(DS) в банках и IT-компаниях стало популярным концентрировать R&D отделы c DS. Концентрированная практика DS внутри компаний способствует более продуктивному созданию новых IT-продуктов, а также решений бизнес-задач, при этом не утрачивая и не отставая в технологиях по всему спектру и перечню связанных с DS задач.
В данной работе был рассмотрен процесс поэтапного создания аналитической модели для нужд банка, на основе транзакций клиентов банка. В ходе анализа были проведены манипуляции над данными, включая: парсинг исходного файла, перенос в хранилище, создания таблиц, валидация данных, агрегирование данных, избавление от аутлаеров, прослеживание временных динамик, генерирование статистических метрик, кластеризация сущностей, сопоставление сущностей и т.д.. В последующем аналитическая модель может быть усовершенствована и доработана.
При выполнении работы использовались следующие инструменты: PyCharm, Python 3.6, Microsoft SQL Server, Git, GitHub, GitKraken. Проект представляет собой файл с данными, набор скриптов на языке Python 3.6, которые автоматизирует процесс создания аналитической модели, хранилище данных SQL Server’a, в которых хранятся данные в виде наборов таблиц.
Данная аналитическая модель поможет банку в выстраивании бизнес - отношений и в создании бизнес-стратегий по сущностям, рассматриваемыми в работе(мерчант и клиент).
1. Том Дэвенпорт и Джон Харрис. Аналитика как конкурентное преимущество.
2. Блок о статистических метриках[Электронный ресурс]
//URL: https: //statanaliz. info/metody/opisanie-dannyx/11 -dispersiya-standartnoe-otklonenie-koeffitsient-variatsii
3. Документация по библиотеке языка Python scikit-leam[Электронный ресурс]
//URL: http ://scikit-
learn.org/stable/modules/generated/skleam.cluster.KMeans.html
4. Статья по работе с базой данных на языке Python[Электронный ресурс] //URL:https://habr.com/post/321510/
5. Блок о кластеризации[Электронный ресурс]
//URL:https://mubaris.com/2017/10/01/kmeans-clustering-in-python/