В настоящее время Big Data становятся неотъемлемой частью личной и профессиональной жизни людей. Сегодня по-настоящему успешный бизнес уже немыслим без анализа данных, а в медицине различные
инструменты Data Mining используются повсеместно.
Данная работа стартовала с практической задачи профилирования
крупной московской сети ресторанов: необходимо было на основе информации о деятельности каждого из ресторанов сети выделить некую
специализацию каждого заведения – наборы наиболее востребованных
там блюд. Ранее решение данной задачи не было автоматизировано, и
её приходилось кропотливо решать вручную, что делало точный ответ
невозможным[2].
Задача, наиболее близкая к данной, – это Market Basket Analysis,
автором которой стал Rakesh Agrawal в 1993 году[1]. Она подразумевает выделение нестрогих правил, по которым клиенты, приобретающие
некий набор товаров, зачастую покупают что-то ещё в дополнение к
имеющимся покупкам. Правила такого вида именуются ассоциативными, а вероятность, с которой выбор одних товаров влечёт выбор других,
называется значимостью (confidence). Задача анализа продуктовой корзины являлась предпосылкой к появлению области ассоциативных правил, однако в дальнейшем этот инструмент начали использовать для
увеличения перекрёстных продаж (cross-sell)[5] и продаж с повышением цены (up-sell)[5], а также для более эффективной прямой адресной
рассылки рекламных предложений (direct mail)[10].
Основная часть любого алгоритма поиска ассоциативных правил состоит в поиске часто встречающихся наборов. При условии наличия
решения этой подзадачи, получение ассоциативных правил осуществляется тривиальным образом, в то время как сам поиск частых наборов вычислительно сложен. В действительности, проблема, к которой
сводится поиск ассоциативных правил, является гораздо более востребованной и применяется ещё и для задач классификации и прогнозирования, например, при диагностике заболеваний сердца[8].
Итак, в настоящей работе была решена актуальная на сегодняшний
день задача проведения сравнительного анализа алгоритмов поиска часто встречающихся наборов с целью выявления наиболее эффективного
из них. До появления данного исследования никто не проводил единовременного сравнения всех существующих алгоритмов в равных условиях.
Помимо этого, я сформировал методологию сравнительного анализа, которая может быть применена по отношению к любым эвристическим алгоритмам.
Важным итогом работы стало появление критерия выбора вычислительно оптимального алгоритма, исходя из характеристик исходных
данных. Этот результат может быть применён в любой задаче, использующей поиск часто встречающихся наборов. Одна из таких задач, положившая начало данному исследованию, была решена – я построил
профили заведений крупной сети ресторанов Coffeemania. Результаты
работы были внедрены в реальное предприятие.
Agrawal Rakesh, Imielinski Tomasz, Swami Arun. Mining associations
between sets of items in large databases. ACM SIGMOD International
Conference on Management of Data. –– SIGMOD, 1993. –– P. 207–216.
[2] Busarov Vyacheslav, Grafeeva Natalia. The solution of the profiling
problem based on Data Analysis. Conference of Open Innovation
Association the 19th, FRUCT. –– IEEE, 2016. –– P. 307–312.
[3] Busarov Vyacheslav, Grafeeva Natalia, Mikhailova Elena. The Choiсe
of Optimal Algorithm for Frequent Itemset Mining. Frontiers in
Artificial Intelligence and Applications. –– IOS Press, 2016. –– P. 211–
224.
[4] Busarov Vyacheslav, Grafeeva Natalia, Mikhailova Elena. A
Comparative Analysis of Algorithms for Mining Frequent
Itemsets. Communications in Computer and Information Science. ––
SPRINGER, 2016. –– P. 136–150.
[5] Cohen Marc-David, Parks Judith. Cross-selling optimizer. –– Patent
right US20020116237 A1, 2002.
[6] Gangurde Roshan, Kumar Dr. Binod, Gore Dr. S. D. Building
Prediction Model using Market Basket Analysis. International
Journal of Innovative Research in Computer and Communication
Engineering. –– IJIRCCE, 2017. –– P. 2541–2548.
[7] Huang Jen-Wei, Tseng Chi-Yao, Ou Jian-Chih. A General Model for
Sequential Pattern Mining with a Progressive Database. Transactions
on Knowledge and Data Engineering 20(9). –– IEEE, 2008. –– P. 1153–
1167.
[8] Ilayaraja M, Meyyappan Thiru. Efficient Data Mining Method to
Predict the Risk of Heart Diseases Through Frequent Itemsets.
Procedia Computer Science. –– ELSEVIER, 2015. –– P. 586–592.
41[9] Sriphaew Kritsada, Theeramunkong Thanaruk. Mining Generalized
Closed Frequent Itemsets of Generalized Association Rules. Lecture
Notes in Computer Science. –– SPRINGER, 2003. –– P. 476–484.
[10] Wong Ke Wang, Zhou Senqiang, Yang Qiang. Mining Customer
Value: From Association Rules to Direct Marketing. Data Mining and
Knowledge Discovery. –– SPRINGER, 2005. –– P. 57–79.