ИССЛЕДОВАНИЕ МЕТОДОВ НАХОЖДЕНИЯ ЗАКОНОМЕРНОСТЕЙ В СТАТИСТИЧЕСКИХ ДАННЫХ
|
Введение
Задача поиска ассоциативных правил 6
1.1 Интеллектуальный анализ данных 7
1.2 Постановка задачи поиска ассоциативных правил 9
1.3 Классический алгоритм поиска ассоциативных правил Apriori ... 14
1.4 Области применения ассоциативных правил 17
2 Необходимые определения из теории вероятностей 20
3 Обзор методов корреляционного анализа 24
3.1 Параметрические методы 25
3.2 Линейная множественная корреляция 29
3.3 Непараметрические методы 31
3.4 Коэффициенты ассоциации и контингенции 32
3.4.1 Оценка связи признаков в таблицах сопряженности 2 х 2 33
3.4.2 Коэффициент ассоциации 34
3.4.3 Коэффициент контингенции (сходства) 34
3.5 Коэффициенты ассоциации Пирсона и Чупрова 35
4 Вероятностный аналог алгоритма Apriori 37
5 Результаты исследования 40
6 Решение практической задачи поиска ассоциативных правил 44
6.1 Описание статистики 44
6.2 Решение с помощью вероятностного аналога алгоритма Apriori. 44
6.3 Решение с помощью методов корреляционного анализа 48
6.4 Анализ полученных результатов 51
Заключение 55
Список использованных источников 56
Приложение
Задача поиска ассоциативных правил 6
1.1 Интеллектуальный анализ данных 7
1.2 Постановка задачи поиска ассоциативных правил 9
1.3 Классический алгоритм поиска ассоциативных правил Apriori ... 14
1.4 Области применения ассоциативных правил 17
2 Необходимые определения из теории вероятностей 20
3 Обзор методов корреляционного анализа 24
3.1 Параметрические методы 25
3.2 Линейная множественная корреляция 29
3.3 Непараметрические методы 31
3.4 Коэффициенты ассоциации и контингенции 32
3.4.1 Оценка связи признаков в таблицах сопряженности 2 х 2 33
3.4.2 Коэффициент ассоциации 34
3.4.3 Коэффициент контингенции (сходства) 34
3.5 Коэффициенты ассоциации Пирсона и Чупрова 35
4 Вероятностный аналог алгоритма Apriori 37
5 Результаты исследования 40
6 Решение практической задачи поиска ассоциативных правил 44
6.1 Описание статистики 44
6.2 Решение с помощью вероятностного аналога алгоритма Apriori. 44
6.3 Решение с помощью методов корреляционного анализа 48
6.4 Анализ полученных результатов 51
Заключение 55
Список использованных источников 56
Приложение
В настоящее время совершенствование аппаратного и программного обеспечения, а также технологий сбора, хранения и обработки данных позволили накопить большой объем информации об объектах и процессах, протекающих практически во всех сферах человеческой деятельности. Закономерным следствием данного процесса стал огромный интерес к изучению накопленных статистических данных и выявлению скрытых в них закономерностей. Задача нахождения закономерностей в статистических данных является одной из актуальных и фундаментальных задач современного анализа данных.
На данный момент одним из самых популярных подходов к обнаружению закономерностей в данных является применение алгоритмов поиска ассоциативных правил, относящихся к методам интеллектуального анализа. Эти алгоритмы предназначены для выявления взаимосвязей между связанными событиями в наборе данных (т.е. происходящими одновременно). Интеллектуальный анализ данных (Data Mining) представляет собой мультидисциплинарную область, возникшую и развивающуюся на базе прикладной статистики, искусственного интеллекта и теории баз данных. Целью интеллектуального анализа данных является обнаружение в данных ранее неизвестных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
В первой главе диссертации приведена постановка задачи поиска ассоциативных правил. Также в этой главе выполнен подробный обзор целей и задач интеллектуального анализа данных. Особое внимание в работе уделено самому известному и востребованному алгоритму поиска ассоциативных правил - алгоритму Apriori. В главе 1 приведено подробное описание данного метода.
Традиционным подходом к изучению статистических взаимосвязей между величинами является корреляционный анализ, представляющий широкий спектр методов для оценки силы связи между случайными величинами (признаками). Выбор метода зависит от вида шкалы, к которой относятся переменные. В главе 3 рассматриваются наиболее востребованные параметрические и непараметрические методы корреляционного анализа.
Оба описанных подхода представляют собой мощные и широко используемые инструменты для анализа данных огромных объёмов, однако до настоящего времени не было проведено никаких исследований по изучению их взаимосвязи. Поэтому выявление взаимосвязи методов поиска ассоциативных правил и методы корреляционного анализа представляет особый интерес для исследования и последующего использования в прикладных задачах. Данному исследованию посвящена пятая глава работы.
Поскольку алгоритмы поиска ассоциативных правил и методы корреляционного анализа базируются на разных математических аппаратах, для проведения корректного сравнения методов в работе был предложен вероятностный аналог алгоритма Apriori. В четвёртой главе приведено его описание, а также сравнение с классическим методом Apriori.
В последней главе диссертации решается практический пример нахождения закономерностей в статистике покупок продуктов питания с помощью методов классического корреляционного анализа и вероятностного аналога алгоритма поиска ассоциативных правил Apriori. Проводится сопоставление полученных правил и найденных корреляционных зависимостей.
Объект исследования.
В качестве объекта исследования в представленной диссертации выступают взаимосвязи между связанными событиями в наборе данных.
Предмет исследования.
Предметом исследования являются методы нахождения закономерностей в статистических данных.
Для достижения указанной цели в диссертационной работе были поставлены и решены следующие задачи:
• изучить классический алгоритм поиска ассоциативных правил Apriori;
• изучить основные методы поиска закономерностей корреляционного анализа;
• разработать вероятностный аналог алгоритма поиска ассоциативных правил Apriori;
• провести исследование взаимосвязи между алгоритмом поиска ассоциативных правил и методом корреляционного анализа;
• решить практическую задачу нахождения закономерностей в статистике с помощью вероятностного аналога алгоритма поиска ассоциативных правил и методами корреляционного анализа;
• выполнить анализ полученных результатов.
Теоретическая и практическая ценность.
Работа носит теоретический характер. Методы, предложенные в этой работе, могут быть использованы при проведении исследований закономерностей в статистических данных, проведении кластерного и регрессионного анализа.
Практические результаты диссертации могут найти применение в областях, связанных с анализом больших данных (англ. Big Data), а также с решением задач оптимизации, прогнозирования и сегментирования в маркетинге, логистике и управлении. Материал диссертации представляет интерес для специалистов в области анализа данных, прикладной статистики и дискретной математики.
На данный момент одним из самых популярных подходов к обнаружению закономерностей в данных является применение алгоритмов поиска ассоциативных правил, относящихся к методам интеллектуального анализа. Эти алгоритмы предназначены для выявления взаимосвязей между связанными событиями в наборе данных (т.е. происходящими одновременно). Интеллектуальный анализ данных (Data Mining) представляет собой мультидисциплинарную область, возникшую и развивающуюся на базе прикладной статистики, искусственного интеллекта и теории баз данных. Целью интеллектуального анализа данных является обнаружение в данных ранее неизвестных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
В первой главе диссертации приведена постановка задачи поиска ассоциативных правил. Также в этой главе выполнен подробный обзор целей и задач интеллектуального анализа данных. Особое внимание в работе уделено самому известному и востребованному алгоритму поиска ассоциативных правил - алгоритму Apriori. В главе 1 приведено подробное описание данного метода.
Традиционным подходом к изучению статистических взаимосвязей между величинами является корреляционный анализ, представляющий широкий спектр методов для оценки силы связи между случайными величинами (признаками). Выбор метода зависит от вида шкалы, к которой относятся переменные. В главе 3 рассматриваются наиболее востребованные параметрические и непараметрические методы корреляционного анализа.
Оба описанных подхода представляют собой мощные и широко используемые инструменты для анализа данных огромных объёмов, однако до настоящего времени не было проведено никаких исследований по изучению их взаимосвязи. Поэтому выявление взаимосвязи методов поиска ассоциативных правил и методы корреляционного анализа представляет особый интерес для исследования и последующего использования в прикладных задачах. Данному исследованию посвящена пятая глава работы.
Поскольку алгоритмы поиска ассоциативных правил и методы корреляционного анализа базируются на разных математических аппаратах, для проведения корректного сравнения методов в работе был предложен вероятностный аналог алгоритма Apriori. В четвёртой главе приведено его описание, а также сравнение с классическим методом Apriori.
В последней главе диссертации решается практический пример нахождения закономерностей в статистике покупок продуктов питания с помощью методов классического корреляционного анализа и вероятностного аналога алгоритма поиска ассоциативных правил Apriori. Проводится сопоставление полученных правил и найденных корреляционных зависимостей.
Объект исследования.
В качестве объекта исследования в представленной диссертации выступают взаимосвязи между связанными событиями в наборе данных.
Предмет исследования.
Предметом исследования являются методы нахождения закономерностей в статистических данных.
Для достижения указанной цели в диссертационной работе были поставлены и решены следующие задачи:
• изучить классический алгоритм поиска ассоциативных правил Apriori;
• изучить основные методы поиска закономерностей корреляционного анализа;
• разработать вероятностный аналог алгоритма поиска ассоциативных правил Apriori;
• провести исследование взаимосвязи между алгоритмом поиска ассоциативных правил и методом корреляционного анализа;
• решить практическую задачу нахождения закономерностей в статистике с помощью вероятностного аналога алгоритма поиска ассоциативных правил и методами корреляционного анализа;
• выполнить анализ полученных результатов.
Теоретическая и практическая ценность.
Работа носит теоретический характер. Методы, предложенные в этой работе, могут быть использованы при проведении исследований закономерностей в статистических данных, проведении кластерного и регрессионного анализа.
Практические результаты диссертации могут найти применение в областях, связанных с анализом больших данных (англ. Big Data), а также с решением задач оптимизации, прогнозирования и сегментирования в маркетинге, логистике и управлении. Материал диссертации представляет интерес для специалистов в области анализа данных, прикладной статистики и дискретной математики.
В работе получены следующие результаты:
• Изучен классический алгоритм поиска ассоциативных правил Apriori;
• Предложен вероятностный аналог алгоритма поиска ассоциативных правил Apriori;
• Изучены основные методы поиска закономерностей корреляционного анализа;
• Проведено исследование связи методов корреляционного анализа с алгоритмами поиска ассоциативных правил.
• Решена практическая задача с помощью классического алгоритма поиска ассоциативных правил и методами корреляционного анализа.
• Выполнен анализ полученных результатов.
Результаты работы докладывались и опубликованы на международной конференции «Молодежь и наука: проспект Свободный» (Красноярск, 2016) и международной конференции «Молодежь и наука: проспект Свободный» (Красноярск, 2017).
• Изучен классический алгоритм поиска ассоциативных правил Apriori;
• Предложен вероятностный аналог алгоритма поиска ассоциативных правил Apriori;
• Изучены основные методы поиска закономерностей корреляционного анализа;
• Проведено исследование связи методов корреляционного анализа с алгоритмами поиска ассоциативных правил.
• Решена практическая задача с помощью классического алгоритма поиска ассоциативных правил и методами корреляционного анализа.
• Выполнен анализ полученных результатов.
Результаты работы докладывались и опубликованы на международной конференции «Молодежь и наука: проспект Свободный» (Красноярск, 2016) и международной конференции «Молодежь и наука: проспект Свободный» (Красноярск, 2017).



