Введение 3
2 Описание задачи 5
2.1 Постановка задачи 5
2.2 Описание входных и выходных данных 5
2.3 Задача классификации 6
3 Решение задачи 8
3.1 Предварительная обработка данных 8
3.2 Оценка точности предсказания 9
3.3 Выбор классификатора 12
3.3.1 Рассматриваемые алгоритмы 12
3.3.2 Сравнение классификаторов 16
3.4 Градиентный бустинг 17
3.5 Отбор признаков 22
3.5.1 Выбор признаков на основе распределения хи-квадрат
и распределения Фишера 28
3.5.2 Выбор признаков на основе доли ложных положительных классификаций 31
3.5.3 Variance Threshold 31
3.5.4 Family-wise error rate 32
3.5.5 Частота ложных обнаружений 33
3.6 Объединение моделей 34
3.7 Используемые технологии 37
4 Вывод 38
5 Приложение 39
6 Код программы 43
Список литературы
Удовлетворённость клиента является ключом к успеху для любой компании. Недовольные клиенты не интересуются представленными услугами, более того, они редко высказывают своё недовольство прежде, чем уйти. Определение недовольных клиентов на ранних стадиях может позволить улучшить отношения между компанией и клиентом до того, как станет поздно.
Наличие лояльности, то есть благоприятного отношения потребителей к компании, её продуктам или услугам, и является основой для стабильного объёма продаж. Что, в свою очередь, является стратегическим показателем успешности компании.
Говоря о лояльности можно также предположить, что лояльными можно назвать тех потребителей, которые достаточно долго остаются с компанией и совершают при этом повторные покупки или продолжают пользоваться её услугами.
Одной из основ лояльности является позитивный опыт, который получил потребитель в процессе покупки/потребления данного продукта или услуги. Вообще, чем дольше потребитель общается с компанией, тем более он для неё ценен в финансовом смысле. Таких потребителей можно образно называть долгосрочными потребителями. Они больше пользуются услугами компании, меньше требуют к себе внимания в плане сервиса и времени обсуживающего персонала. Информация о степени удовлетворенности потребителей является отличным показателем того, насколько хорошо или плохо компания удовлетворяет потребности своих клиентов. Это также может показать то, что нужно улучшать для того, чтобы большинство клиентов стали полностью удовлетворёнными.
Многие компании прибегают к анализу степени удовлетворённости клиентов. Так, специалисты IBM установили, что рост коэффициента удовлетворённости их потребителей на 1% приносит 500 млн долл. от дополнительных продаж в течение следующих 5 лет.
Ежегодно компании теряют от 10 до 30% своих потребителей прежде всего из-за несовершенства системы удовлетворения их запросов. По данным Дж. Кампанеллы, один недовольный клиент может рассказать о возникших у него проблемах в среднем еще 35 потенциальным клиентам компании, и этот вторичный эффект способен разрушительно повлиять на будущие объёмы продаж. Ф. Котлер приводит более скромную цифру - 11. Но даже это число довольно велико, так как каждый из 11 недовольных клиентов расскажет об этом своим знакомым. В результате количество потенциальных клиентов, получивших отрицательную информацию о компании, возрастет по экспоненте. Недовольный клиент наносит компании урон, намного превышающий те деньги, которые он не потратит на её товар или услуги.
Полезным инструментом для определения степени удовлетворённости клиентов и дальнейшего взаимодействия между ними и компанией могут быть методы машинного обучения. Машинное обучение — это подраздел искусственного интеллекта, изучающий алгоритмы, способные к обобщению и обучению. В данной работе будет рассмотрена задача классификации, классическая задача, решаемая методами машинного обучения, на примере предсказания степени удовлетворённости клиентов банка. Задача взята c платформы Kaggle. Цель работы заключается в получении наиболее точного предсказания на основе имеющихся данных.
Постановка цели предполагает решение некоторых задач. В качестве задач работы были выбраны следующие аспекты:
• Обработка предоставленных тренировочного и тестового наборов для получения данных, на которых классификатор может дать лучший результат
• Построение классификатора, дающего наибольшую точность предсказания
• Анализ полученных результатов
Классификация производилась по следующим наборам данных:
1. Базовый набор данных
2. Данные после предварительной обработки
3. Данные, отобранные на основе методов хи-квадрат и F-распределения Фишера
4. Данные на основе доли ложных положительных классификаций
Для построения классификатора использовались как сами модели, так и их объединение. Наилучший результат при использовании градиентного буетинга был получен на данных, отобранных тестом ложно-положительного коэффициента, точность предсказания - 0.833661, что приблизительно на 0.01 хуже результатов лидеров соревнования.
Оценка точности предсказания производилась при помощи кросс-валидации и AUC.
Исходя из результатов, полученных в ходе решения задачи, можно сделать вывод, что наибольшую точность предсказания может дать анализ признаков. Для правильного выделения значащих признаков необходимо использовать статистические методы обработки данных, а также изучить предметную область.
В то же время важно выбрать классификатор, наиболее подходящий для решения задачи. Эффективность классификатора зависит от данных, например, для данных с линейной зависимостью лучше подходят линейные алгоритмы машинного обучения.
В целом полученный классификатор дает довольно высокую точность предсказания (8 раз 10 мы верно определим клиента, не удовлетворенного качеством услуг). Стоит также помнить, что помимо признаков, представленных в данных, на отношение клиента к банку могут влиять и другие факторы, такие как характер клиента, негативные события в его жизни и другое.
[1] Ли, Геннадий. Удовлетворенность потребителей и лояльность [Электронный ресурс] / Г. Ли. - Электрон. текстовые дан. - СПб., 2014. - Режим доступа: http://www.marketing.spb.ru/read/article/a47.htm, свободный.
[2] Измерение удовлетворенности потребителей по стандарту ИСО 9000:2000. / Хилл Н., Сельф Б., Роше Г. - М.: Технологии, 2004. - 192 с.
[3] Глушакова Т. Замеры удовлетворенности потребителей и управление предприятием [Электронный ресурс]. - Режим доступа: http://ateh.ru/conten/
[4] Кампанелла, Дж. Экономика качества. Основные принципы и их применение. / Дж. Кампанелла- М.: Стандарты и качество, 2005. - 232 с.
[5] Котлер, Ф. Маркетинг в третьем тысячелетии: как создать, завоевать и удержать рынок. / Ф. Котлер - М.: АСТ, 2000. - с. 161.
[6] Информация о задаче: https://www.kaggle.com/c/santander-customer- satisfaction
[7] Мерков, А.Б. Распознавание образов: Введение в методы статистического обучения. / А.Б. Мерков. - Москва: УРСС, 2011. - 256 с.
[8] Friedman, J., Stochastic gradient boosting / J. Friedman. - 1999. - 10 p.
[9] Jones J. Statistics: Lecture Notes [Электронный ресурс]. - Режим доступа: https://people.richland.edu/james/lecture/m170/
[10] Воронцов В. Машинное обучение. Дисперсионный анализ[Электронный ресурс]. - Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=Дисперсионный_анализ
[11] Mitchell, T.M. Machine learning. / T.M. Mitchell. - New-York: McGraw- Hill, 1997. - 432 p.
[12] Александр Вежневец, Владимир Вежневец. Компьютерная графика и мультимедиа. Выпуск № 2(12)/2006.
[13] Scikit-Learn user guide. Feature selection. Variance Treshold. [Электронный ресурс]. - Режим доступа: http://scikit- learn.org/stable/modules/feature_selection.html#variance-threshold
[14] Breiman, L. Bagging predictors // Machine Learning. - 1996. - 24(2) - 123-140 p.