Аннотация 2
Введение 5
1 Анализ алгоритмов для работы с предметными наборами 7
1.1 Обзор технологии аффинивного анализа данных 7
1.2 Алгоритмы для работы с предметными наборами 9
2 Методология сравнительного анализа алгоритмов поиска частых предметных наборов 20
2.1 Анализ критериев для выбора оптимального алгоритма 20
2.2 Выборка данных для анализа 24
3 Разработка программного модуля для сравнения алгоритмов 26
3.1 Описание программного модуля 26
3.2 Результаты тестирования алгоритмов 35
Заключение 38
Список используемой литературы 39
В настоящее время Big Data становятся неотъемлемой частью личной и профессиональной жизни людей. Сегодня по-настоящему успешный бизнес уже немыслим без анализа данных, а в медицине различные инструменты Data Mining используются повсеместно.
Аффинитивный анализ активно используется розничными сетями всех стран мира для поиска взаимосвязи в подкупах, совершаемых клиентами магазина [12]. Целью аффинитивного анализа является поиск правил, описывающих закономерность в совершаемых покупках. Первое математическое описание данной задачи было предложено Rakesh Agrawal в 1993 году, и она известна под названием Market Basket Analysis [11]. «Задача подразумевает выделение нестрогих правил, по которым клиенты, приобретающие некий набор товаров, зачастую покупают что-то ещё в дополнение к имеющимся покупкам. Правила такого вида именуются ассоциативными, а вероятность, с которой выбор одних товаров влечёт выбор других, называется значимостью (confidence). Задача анализа продуктовой корзины являлась предпосылкой к появлению области ассоциативных правил, однако в дальнейшем этот инструмент начали использовать для увеличения перекрёстных продаж (cross-sell) и продаж с повышением цены (up-sell), а также для более эффективной прямой адресной рассылки рекламных предложений (direct mail)» [20].
Основная часть любого алгоритма поиска ассоциативных правил состоит в поиске часто встречающихся наборов. При условии наличия решения этой подзадачи, получение ассоциативных правил осуществляется тривиальным образом, в то время как сам поиск частых наборов вычислительно сложен. В действительности, проблема, к которой сводится поиск ассоциативных правил, является гораздо более востребованной и применяется ещё и для задач классификации и прогнозирования, например, при диагностике заболеваний сердца [8].
Исходя из значительного количества исследований в области часто встречающихся наборов и наличия множества свежих публикаций, можно с уверенностью сделать вывод об актуальности проблем, сводящихся к поиску частых наборов.
Задача существует уже более 20-ти лет, и за это время появилось огромное количество алгоритмов, решающих её с той или иной степенью эффективности. Однако сложность состоит в том, что до появления данной работы не существовало полноценного сравнительного анализа одновременно всех существующих алгоритмов поиска частых наборов в равных условиях [14]. При решении конкретной задачи важно иметь возможность осознанного выбора алгоритма с наибольшей производительностью, однако это невозможно было сделать при отсутствии полномасштабного исследования.
Цель данной работы — разработка программного модуля для сравнения алгоритмов поиска частых предметных наборов. Для достижения этой цели в рамках данной работы были сформулированы следующие задачи:
• провести теоретический анализ алгоритмов;
• разработать программное обеспечение для сравнения быстродействия алгоритмов;
• провести тестирование программного обеспечения на существующем наборе данных.
Выделим основные результаты работы:
1. На основе исследований был проведен сравнительный анализ алгоритмов поиска частных предметных наборов. Установлено, что существует два принципа работы алгоритмов: Генерация решений и тестирование (candidate-generation-and-test) и Наращивание паттернов (pattern-growth). Алгоритмы друг от друга также отличаются используемыми структурами данных для хранения исходных данных и промежуточных результатов работы алгоритмов.
2. Произведен анализ критериев для определения оптимального алгоритма поиска частых предметных наборов. Рассматривались такие критерии, как асимптотика, простота реализации, объем затрачиваемой памяти и время поиска решения. В ходе анализа установлено, что время поиска решения является ключевым фактором при выборе оптимального алгоритма.
3. Описана выборка данных, на которых проводится тестирование алгоритмов поиска частых предметных наборов. Результаты тестирования и графики приведены в третье главе.
4. На языке программирование Python было разработано программное обеспечение, производящее сравнение быстродействия алгоритмов поиска частых предметных наборов на загруженных пользователем данных. Реализована поддержка следующих алгоритмов: Apriori, Apriori Hybrid, PrePost, PrePost+, Eclat, dEclat, PPV, FIN, FP-Growth, Relim, LCMFreq и H- mine. В программном обеспечении реализована возможность визуализации результатов вычислительного эксперимента по замеру быстродействия алгоритмов в виде графиков. Программное обеспечение работает на облачном сервере Google colab.
1. Жуков, Д.А. Формирование контрольных выборок при технической диагностике объекта с применением машинного обучения / Д.А. Жуков, А.С. Хорева, Ю.Е. Кувайскова, В.Н. Клячкин // Математические методы и модели: теория, приложения и роль в образовании - международная научно-техническая конференция : сборник научных трудов, 28-30 апреля 2016 года. - Ульяновский государственный технический университет (Ульяновск), 2016. - с. 44-48. - Текст : непосредственный.
2. Иванников Ю.Ю. Применение методов машинного обучения для выявления бот-трафика среди запросов к веб-приложению / Ю.Ю. Иванников, Е.Ю. Митрофанова // Сборник студенческих научных работ факультета компьютерных наук ВГУ, Факультет компьютерных наук, 2017. - ФГБОУ ВО «Воронежский государственный университет», 2017. - с. 119-123. - Текст : непосредственный.
3. Клячин В.Н. Использование агрегированных классификаторов при технической диагностике на базе машинного обучения / В.Н. Клячин, Ю.Е. Кувайскова, Д.А. Жуков // Информационные технологии и нанотехнологии (ИТНТ-2017) - сборник трудов III международной конференции и молодежной школы. Самарский национальный исследовательский университет имени академика С.П. Королева. 2017. - Предприятие "Новая техника" (Самара), 2017. - с. 1770-1773. - Текст : непосредственный.
4. Кононова, Н.В. Исследование подсистемы контентной фильтрации с использованием методов машинного обучения / Н.В. Кононова, Ю.А. Андрусенко, Т.А. Самокаева // Студенческая наука для развития информационного общества - сборник материалов VI Всероссийской научно-технической конференции. 22-26 мая 2017. - Северо-Кавказский федеральный университет (Ставрополь), 2017. - с. 268-270. - Текст : непосредственный.
5. Мелдебай, М.А. Анализ мнений покупателей на основе машинного обучения / М.А. Мелдебай, А.К. Сарбасова // Прикладная математика и информатика: современные исследования в области естественных и технических наук - материалы III научно-практической всероссийской конференции (школы-семинара) молодых ученых. 24-25 апреля 2017 года. - Издатель Качалин Александр Васильевич, 2017. - с. 360-363. - Текст : непосредственный.
6. Наумов, Д.П. Регулятор CAP на основе машинного обучения / Д.П. Наумов, Д.П. Стариков // Информационные технологии в управлении, автоматизации и мехатронике - сборник научных трудов Международной научно-технической конференции. 06-07 апреля 2017 года. - ЗАО "Университетская книга" (Курск), 2017. - с. 106-114. - Текст : непосредственный.
7. Осколков, В.М. Использование метода машинного обучения для повышения продуктивности на предприятии / В.М. Осколков, Н.И. Шаханов, И.А. Варфоломеев, О.В. Юдина, Е.В. Ершов // Автоматизация и энергосбережение машиностроительного и металлургического производств, технология и надежность машин, приборов и оборудования - материалы XII Международной научно-технической конференции, 21 марта 2017. - Вологодский государственный университет (Вологда), 2017. - с. 177-180. - Текст : непосредственный.
8. Осколков, В.М. Применение параллельных вычислений для прогнозирования на основе алгоритма машинного обучения Random Forest / В.М. Осколков, Н.И. Шаханов, И.А. Варфоломеев, О.В. Юдина, Л.Н. Виноградова, Е.В. Ершов // Сборник трудов конференции Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Распознавание, Курск, 16-19 мая 2017 года. - Юго-Западный государственный университет (Курск), 2017. - с. 267-269. - Текст : непосредственный.
9. Соловьев, А.Ю. Применение машинного обучения для прогнозирования неблагоприятных исходов в ургентной хирургии / Соловьев А.Ю., Берегов М.М., Вахеева Ю.М., Баутин А.Н., Гусев А.В. // Медикобиологические, клинические и социальные вопросы здоровья и патологии человека - материалы III Всероссийской образовательно-научной конференции студентов и молодых ученых с международным участием в рамках XIII областного фестиваля "Молодые ученые - развитию Ивановской области". 2017. - Ивановская государственная медицинская академия (Иваново), 2017. - с. 129-130. - Текст : непосредственный.
10. Ткач, Т.Ч. Машинное обучение и обработка больших данных - обучение в основной и средней школе / Т.Ч. Ткач // Актуальные проблемы методики обучения информатике и математике в современной школе - материалы международной научно-практической интернет-конференции. Московский педагогический государственный университет, Москва, 24 апреля 2020 года. - Московский педагогический государственный университет (Москва), 2020. - с. 217-223. - Текст : непосредственный.
11. Agarwal, J. Mining Frequent Quality Factors of Software System Using Apriori Algorithm / Jyoti Agarwal, Sanjay Kumar Dubey, Rajdev Tiwari // Proceedings of the International Conference on Data Engineering and Communication Technology (ICDECT 2016). - Springer Science+Business Media Singapore, 2017. - pp. 481-490. - Текст : непосредственный.
12. Arora, P. Design and Performance Analysis of Distributed Implementation of Apriori Algorithm in Grid Environment / Priyanka Arora, Sarbjeet Singh // ICT and Critical Infrastructure: Proceedings of the 48th Annual Convention of Computer Society of India. - Springer International Publishing Switzerland, 2014. - pp. 653-661. - Текст : непосредственный.
13. Benhamouda, N.C. Meta-Apriori: A New Algorithm for Frequent Pattern Detection / Neyla Cherifa Benhamouda, Habiba Drias, Celia Hireche // Asian Conference on Intelligent Information and Database Systems: Intelligent Information and Database Systems (ACIIDS 2016). - Springer-Verlag Berlin Heidelberg, 2016 - pp. 277-285. - Текст : непосредственный.
14. Child, Ch. The Apriori Stochastic Dependency Detection (ASDD) Algorithm for Learning Stochastic Logic Rules / Christopher Child, Kostas Stathis // International Workshop on Computational Logic in Multi-Agent Systems (CLIMA 2004). - Springer-Verlag Berlin Heidelberg, 2004. - pp. 234-249. - Текст : непосредственный.
15. Choo, Y.H. A Rough-Apriori Technique in Mining Linguistic Association Rules / Yun-Huoy Choo, Azuraliza Abu Bakar, Abdul Razak Hamdan // International Conference on Advanced Data Mining and Applications (ADMA 2008). - Springer-Verlag Berlin Heidelberg, 2008. - pp. 548-555. - Текст : непосредственный.
...