Введение
Глава 1: Введение в модели частичного обучения
§1.1 Постановка задач обучения с учителем и без учителя
§1.2 Оценка качества предсказательных моделей
§1.3 Введение в задачи частичного обучения
§1.4 Основные предположения в задачах частичного обучения
Глава 2: Метод Co-training в задаче частичного обучения
§2.1 Метод Co-training в задаче частичного обучения
§2.2 Преимущества и недостатки метода Co-training
§2.3 Предлагаемые варианты применения метода Co-training
Глава 3: Оценка объема лояльных клиентов
§3.1 Описание бизнес-задачи и её постановка в рамках машинного обучения
§3.2 Алгоритм решения задачи и выбор оптимальной модели частичного обучения
§3.3 Выводы
Заключение
Список использованных источников:
Приложение
1. Результаты эконометрического моделирования: проверка статистической значимости клиентских признаков по модели логистической регрессии.
2. Листинг программы, реализующей метод Co-Training на языке Python 3
3. Пример работы программы Co-Training Classifier
Тенденции всеобщей цифровизации, развития Интернета вещей 1 и автоматизации
большинства однотипных рутинных процессов в различных сферах социально-экономической
деятельности привели к тому, что сегодня многие компании накапливают свои базы данных,
собирая как можно больше статистики о собственном бизнесе. Кроме процесса глобальной
автоматизации это также обусловлено тем, что в XXI веке умение эффективного управления
внутренними и внешними данными на предприятии становится в один ряд приоритетных задач.
Благодаря этому система поддержки принятия решений фирмы усложняется, стремясь
максимально быстро выявить изменение паттернов и трендов потребительского поведения. В
свою очередь для этих целей всё более расширяется применение моделей статистического
обучения с целью всестороннего анализа данных.
С точки зрения системы поддержки принятия решений одной из распространенных задач
на практике является разбиение объектов на классы (задача классификации). Однако в
экономической сфере велика доля неопределённости. Это выражается тем, что, в первую очередь,
в сфере бизнеса и экономики в целом массив имеющихся данных, используемых для
моделирования, содержит лишь небольшую часть так называемой размеченной информации –
данных, в которых присутствует некоторая целевая переменная. В первую очередь, это
объясняется тем, что затраты на разметку всех данных являются слишком велики для компаний,
работающих с большими объемами данных. Кроме того, моделируемых целевых показателей
может просто не существовать вовсе, и они разрабатываются в процессе становления той или иной
корпоративной технологии. Для подобных задач с недостатком размеченных данных помимо
нейросетевых подходов сегодня развиваются методы «полуавтоматического обучения» или
«частичного обучения»2, например, анализ данных методов проводится в работах [24, 22, 31].
В 1998 году Avrim Blum и Tom Mitchel из Университета Карнеги – Меллон (Carnegie Mellon
University) опубликовали работу под названием «Combining Labeled and Unlabeled Data with CoTraining», в которой описан эффективный метод кооперативного обучения моделей
классификации в условиях дефицита размеченной информации и наличия неструктурированных
данных. Изначально метод был применен для классификации веб-страниц в интернете.
1 IoT: Internet of Things, концепция создания умных сетей между устройствами, бытовыми и промышленными предметами, [35]
Соответственно, в статье [14] была показана его работоспособность на подобной прикладной
задаче.
В экономической же практике зачастую необходимо анализировать ситуацию «здесь и
сейчас», когда существует значимый дефицит времени, за которое необходимо получать
нетривиальные оценки текущего состояния среды бизнеса, его целевых покупателей и
осуществлять управленческие решения в максимально короткие сроки. В таком случае на помощь
бизнесу зачастую приходят методы прикладной статистики и анализа данных. В представленной
работе исследуется возможность применения указанного метода кооперативного обучения в
практической экономической задаче – оценке текущего поведения клиентов, а также выносятся
предлагаемые модификации метода.
Таким образом, целью представленной работы является оценка потенциальной
дополнительной выгоды от удержания нелояльных клиентов путем создания и применения
прикладной программы моделирования и мониторинга степени лояльности клиентов методом
частичного обучения Co-Training, которая может стать полезным инструментом в корпоративной
рекомендательной системе.
Следовательно, объект исследования данной работы в рамках практической задачи – группа
потребителей товаров и услуг на автозаправочных станциях.
Предметом исследования выступает потребительское поведение данных клиентов. Они
могут потреблять как основной продукт автозаправочных станций – топливо разных марок, так и
дополнительные опции в рамках обслуживания их автомобилей, а также сопутствующие товары и
услуги – продукция общепита, бытовая химия и автомобильные товары.
Основная гипотеза, поставленная в начале изучения указанной проблематики: в условиях
дефицита информации и наличия неструктурированных данных анализируемый в работе метод
позволяет дать значимые оценки вероятностей поведенческой классификации клиентов
автозаправочных станций с качеством предиктора выше случайного гадания, и, соответственно,
измеримую потенциальную выгоду от повышения лояльности этих клиентов.
Реализация указанной цели потребовала решения следующих задач:
1. Изучить общепринятые постановки задач прикладной статистики.
2. Прояснить особенности решения каждого класса задач статистического обучения.
3. Выяснить текущую проработанность сферы задач SSL.
4. Раскрыть концепцию метода Co-Training в рамках задач SSL.5
5. Разработать программу решения задач с помощью метода Co-Training.
6. Построить ряд моделей в рамках метода Co-Training для анализа потребительского
поведения, определить из них наилучшую по качеству и выявить значимые паттерны в
процессе моделирования.
7. Оценить конкретный экономический эффект от повышения степени лояльности
клиентов.
Необходимость реализации указанных цели и задач обусловила структуру и логику
работы. Представленная работа состоит из введения, трёх глав, списка использованных
источников и приложения.
Во введении тема работы актуализируется с учетом текущих потребностей
коммерческих организаций с целью максимально возможного извлечения полезной
информации из истории поведения потребителей. Первая глава посвящена исследованию
теоретических аспектов моделей частичного обучения без отрыва от других задач прикладной
статистики, а также рассмотрению вопроса оценки качества моделирования. Во второй главе
детально разбирается метод кооперативного обучения Co-Training, проводится его
критический анализ, вносятся предложения по его модификации и представляются варианты
метода для прикладного использования. В третьей главе исследуемый метод реализуется на
широко распространённом объектно-ориентированном интерпретируемом языке
программирования Python 3, ставится конкретная бизнес-задача и переводится в рамки задач
статистического обучения, после чего анализируемая модель настраивается и применяется в
формализованной задаче. Приложение содержит листинг программы, реализующей метод,
рассматриваемый в данной работе, а также пример её работы с использованием удобного
графического интерфейса пользователя.
В представленной выпускной квалификационной работе:
• Предложена и проанализирована модификация метода частичного обучения CoTraining, которая позволяет эффективнее использовать дополнительную информацию об
объектах с целью их исследования в рамках задачи классификации.
• Реализована программа представленного метода на основе статьи разработчиков
университета Карнеги-Меллон [14] с его дополнительными модификациями и выбором
условий остановки алгоритма на языке Python 3, которая может быть использована во многих
системах поддержки принятия решений и работы с клиентами в компаниях.
• Проведены эксперименты на реальных данных нефтяной компании ПАО
«Газпром нефть» с условием экстремальной нехватки обучающих данных для моделирования.
Полученные результаты экспериментов показали, что нельзя отвергать поставленную в работе
гипотезу, а также доказали работоспособность метода в области повышения
классификационного качества.
• Получены значимые по качеству результаты оценки лояльности клиентов с
точки зрения их дополнительных закупок топлива у конкурентов компании, что доказывает
возможную практическую применимость представленного метода в более широком ключе
возникающих задач, чем это было представлено его авторами ранее.
Таким образом, в условиях дефицита информации и наличия неструктурированных
данных анализируемый в работе метод позволяет не только дать значимые оценки
вероятностей поведенческой классификации клиентов автозаправочных станций с качеством
предиктора выше случайного гадания, но и повысить эту уверенность анализом работы метода
Co-Training на итерациях, тем самым повысить точность прогнозов в области оценки
потребительского рынка в целом
1. Айвазян, С.А. Классификация многомерных наблюдений/ С.А. Айвазян [и др.] //
М.: Статистика, 1974.
2. Айвазян, С.А. Прикладная статистика: Классификация и снижение размерности
/ С.А. Айвазян [и др.] // М.: Финансы и статистика, 1989.
3. Айвазян, С.А. Основы моделирования и первичная обработка данных / С.А.
Айвазян [и др.] // М.: Финансы и статистика, 1989.
4. Вапник, В.Н., Червоненкис, А.Я. Теория распознавания образов (статистические
проблемы обучения) / В.Н. Вапник, А.Я Червоненкис //М.: Наука. 1974.
5. Воронцов, К. В. Обзор современных исследований по проблеме качества
обучения алгоритмов/ К. В. Воронцов // Таврический вестник информатики и математики. –
2004. –№ 1. – С. 5–24
6. Тихонов, А. Н., О некорректных задачах линейной алгебры и устойчивом методе
их решения/ А. Н. Тихонов // Докл. АН СССР, 1965, т. 163, № 3, - С. 591—594.
7. Шеннон, К. Работы по теории информации и кибернетике/ К. Шеннон // М.: Изд.
иностр. лит., 2002.
8. Bishop, C. Pattern recognition and Machine Learning. Springer Science/ C. Bishop //
Business Media, LLC. 2006.
9. Olivier C., Bernhard, S., Alexander, Z, Semi-Supervised Learning (Adaptive
Computation and Machine Learning series)/ C. Olivier, S. Bernhard, Z. Alexander, // Cambridge,
Mass.: MIT Press, 2006.
10. Óscar M., Gonzalo M., Javier S. A Data Mining & Knowledge Discovery Process
Model. In Data Mining and Knowledge Discovery in Real Life Applications/ M. Óscar, M. Gonzalo,
S. Javier // Book edited by: Julio Ponce and Adem Karahoca, pp. 438-453, I-Tech, 2009.
11. Quinlan, J.R. Induction of Decision Trees/ J.R. Quinlan // Machine Learning 1: 81-
106, 1986.
12. Rosenblatt, F. Principles of Neurodynamic: Perceptrons and the Theory of Brain
Mechanisms/ F. Rosenblatt // Washington, DC: Spartan. 1962.
13. Agrawala, A. K. Learning with a probabilistic teacher/ A. K. Agrawala // IEEE
Transactions on Information Theory.1970. 16, pp. 373–379.
14. Blum, A., Mitchell, T. Combining Labeled and Unlabeled Data with Co-Training/ A.
Blum, T. Mitchell // Proceedings of the Eleventh Annual Conference on Computational Learning
theory.1998. COLT, 92-100.
15. Breiman L. Random forests/ L. Breiman // Machine Learning. 2001. Vol. 45(1), pp.
5–32.
16. de Brebisson, A., Vincent, P. An exploration of Softmax alternatives belonging to the
spherical loss family/ A. de Brebisson, P. Vincent // MILA, D ́epartement dInformatique et de
Recherche Op ́erationnelle, University of Montr ́eal. ICLR. 2016.
17. Cohen, J. A coefficient of agreement for nominal scales/ J. Cohen // Educational and
Psychological Measurement. 20(1):37-46.1960.
18. Chao D., Zu Guo, M. A new co-training-style random forest for computer aided
diagnosis/ D. Chao, M. Zu Guo // Journal of Intelligent Information Systems. Vol. 36(3), pp 253–
281.
19. Du, J., Ling, C. X., Zhou, Z.-H. When does co-training work in real data?/ J. Du, , C.
X. Ling, Z.-H Zhou // IEEE Transactions on Knowledge and Data Engineering, 2011. 23(5). pp. 788-
799.48
20. Fawcett, T. An Introduction to ROC Analysis/ T. Fawcett, // Pattern Recognition
Letters. 2006. 27 (8), pp 861–874.
21. Tsoumakas G., Katakis, I. Multi-Label Classification: An Overview/ G. Tsoumakas,
I. Katakis, // International Journal of Data Warehousing & Mining. 2007. 3(3), pp. 1-10.
22. Huang, KY. A heuristic approach to classifying labeled/unlabeled data sets/ KY.
Huang // The Journal of the Operational Research Society.2012. Vol. 63, No. 9 pp. 1248-1257.
23. Hughes, G.F. On the mean accuracy of statistical pattern recognizers/ G.F. Hughes //
IEEE Transactions on Information Theory.1968. 14 (1), pp. 55–63.
24. Kennedy, B. Namee M. , Delany, SJ. Using semi-supervised classifiers for credit
scoring/ B. Kennedy, M. Namee, SJ. Delany, // Journal of the Operational Research Society. 2013.
Vol. 64, pp. 513-529.
25. Mika S., Fisher Discriminant Analysis with Kernels. Neural Networks for Signal
Processing/ S. Mika // IX, 1999: Proceedings of the 1999 IEEE Signal Processing Society Workshop,
IEEE. 1999. pp. 41-48.
26. Nigam, K., Ghani, R. Analyzing the effectiveness and applicability of co-training/ K.
Nigam, R. Ghani // In: Proceedings of the 9th International Conference on Information and
Knowledge Management.2000.
27. Shen, D., Zhang, J., Su, J., Zhou, G., Tan, C.-L. A collaborative ability measurement
for co-training/ D. Shen, J. Zhang, J. Su, G. Zhou, C.-L. Tan, // IX, 1999: Proceedings of the 1999
IEEE Signal Processing Society Workshop 2005.
28. Scudder, H. J. Probability of error of some adaptive pattern-recognition machines/ H.
J. Scudder // IEEE. Transactions on Information Theory. 1965. 11, pp. 363–371.
29. Wang, W., Zhou, Z.-H. Co-training with insufficient views/ W. Wang, Z.-H. Zhou //
Proceedings of the 5th Asian Conference on Machine Learning, Canberra, Australia. JMLR: W&CP
29. 2013. pp. 467-482.
30. Wang, W., Zhou, Z.-H. A new analysis of co-training/ W. Wang, , Z.-H. Zhou // In:
Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel, 2010, pp. 1135-
1142.
31. Ya, X., Justin, S. D., Art B. Owen. Empirical stationary correlations for semisupervised learning on graphs/ X. Ya, S. D. Justin, B. Owen Art. // The Annals of Applied
Statistics.2010. Vol. 4, No. 2 pp. 589-614.
32. Zhou, Z.-H., Zhan, D.-C., Q. Yang. Semi-supervised learning with very few labeled
training examples/ Z.-H. Zhou, D.-C. Zhan, Q. Yang // In: Proceedings of the 22nd AAAI Conference
on Artificial Intelligence, Vancouver, Canada. 2007. pp. 675-680.
33. Center for Machine Learning and Intelligent Systems: UCI Machine Learning
Repository [Электронный ресурс]. URL: https://archive.ics.uci.edu/ml/. (Дата обращения:
11.11.2017).
34. Scikit-Learn. Machine Learning in Python. [Электронный ресурс]. URL:
http://scikit-learn.org/stable/index.html#. (Дата обращения: 10.09.2017).
35. Statmodels. Statistics in Python. [Электронный ресурс]. URL:
http://www.statsmodels.org/stable/index.html. (Дата обращения: 10.09.2017).
36. What is the internet of things? [Электронный ресурс]. URL:
https://www.theguardian.com/technology/2015/may/06/what-is-the-internet-of-things-google. (Дата
обращения: 1.08.2017)