Тема: Сравнительный анализ алгоритмов поиска частых наборов и их использование
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи
1. Обзор
Терминология . Apriori
FP-Growth . . . Relim
PrePost+ . . . . Apriori Hybrid . Eclat
dEclat
LCMFreq v.2/v.3
1.10. H-mine
1.11. PPV
1.12. PrePost
1.13. FIN
2. Методология сравнительного анализа
3. Сравнительный анализ
Формализация условия задачи
Процедура поиска публикаций
Критерии исследования
Выделение основополагающих подходов Анализ существующих результатов . . . Эксперименты
Алгоритм выбора оптимального подхода
4. Анализ результатов
5. Заключение
Список литературы
📖 Введение
инструменты Data Mining используются повсеместно.
Данная работа стартовала с практической задачи профилирования
крупной московской сети ресторанов: необходимо было на основе информации о деятельности каждого из ресторанов сети выделить некую
специализацию каждого заведения – наборы наиболее востребованных
там блюд. Ранее решение данной задачи не было автоматизировано, и
её приходилось кропотливо решать вручную, что делало точный ответ
невозможным[2].
Задача, наиболее близкая к данной, – это Market Basket Analysis,
автором которой стал Rakesh Agrawal в 1993 году[1]. Она подразумевает выделение нестрогих правил, по которым клиенты, приобретающие
некий набор товаров, зачастую покупают что-то ещё в дополнение к
имеющимся покупкам. Правила такого вида именуются ассоциативными, а вероятность, с которой выбор одних товаров влечёт выбор других,
называется значимостью (confidence). Задача анализа продуктовой корзины являлась предпосылкой к появлению области ассоциативных правил, однако в дальнейшем этот инструмент начали использовать для
увеличения перекрёстных продаж (cross-sell)[5] и продаж с повышением цены (up-sell)[5], а также для более эффективной прямой адресной
рассылки рекламных предложений (direct mail)[10].
Основная часть любого алгоритма поиска ассоциативных правил состоит в поиске часто встречающихся наборов. При условии наличия
решения этой подзадачи, получение ассоциативных правил осуществляется тривиальным образом, в то время как сам поиск частых наборов вычислительно сложен. В действительности, проблема, к которой
сводится поиск ассоциативных правил, является гораздо более востребованной и применяется ещё и для задач классификации и прогнозирования, например, при диагностике заболеваний сердца[8].
✅ Заключение
день задача проведения сравнительного анализа алгоритмов поиска часто встречающихся наборов с целью выявления наиболее эффективного
из них. До появления данного исследования никто не проводил единовременного сравнения всех существующих алгоритмов в равных условиях.
Помимо этого, я сформировал методологию сравнительного анализа, которая может быть применена по отношению к любым эвристическим алгоритмам.
Важным итогом работы стало появление критерия выбора вычислительно оптимального алгоритма, исходя из характеристик исходных
данных. Этот результат может быть применён в любой задаче, использующей поиск часто встречающихся наборов. Одна из таких задач, положившая начало данному исследованию, была решена – я построил
профили заведений крупной сети ресторанов Coffeemania. Результаты
работы были внедрены в реальное предприятие.



