Моделирование синтеза классификаторов на основе аффинитивного анализа данных
|
Введение 3
1 Анализ перспектив развития алгоритмов машинного обучения 6
1.1 Анализ тенденций в области машинного обучения 6
1.2 Построение классификатора для анализа изображений 17
1.3 Перспективы развития алгоритмов машинного обучения 21
2 Разработка технологии синтеза классификаторов на основе аффинитивного анализа данных 26
2.1 Математическая модель алгоритма Apriori 26
2.2 Синтез классификатора на основе модифицирования ассоциативных правил 34
3 Проведение тестирования предложенных подходов 40
3.1 Программная реализация предложенных подходов 40
3.2 Реализация интерфейса 60
3.3 Проведение вычислительных экспериментов 67
Заключение 73
Список используемой литературы 75
1 Анализ перспектив развития алгоритмов машинного обучения 6
1.1 Анализ тенденций в области машинного обучения 6
1.2 Построение классификатора для анализа изображений 17
1.3 Перспективы развития алгоритмов машинного обучения 21
2 Разработка технологии синтеза классификаторов на основе аффинитивного анализа данных 26
2.1 Математическая модель алгоритма Apriori 26
2.2 Синтез классификатора на основе модифицирования ассоциативных правил 34
3 Проведение тестирования предложенных подходов 40
3.1 Программная реализация предложенных подходов 40
3.2 Реализация интерфейса 60
3.3 Проведение вычислительных экспериментов 67
Заключение 73
Список используемой литературы 75
Актуальность и научная значимость исследования определена необходимостью развития способов применения алгоритмов машинного обучения при решении практических задач.
Машинное обучение в последние годы получило широкое распространение во многих отраслях науки и техники. Рост популярности обусловлен используемым подходом к построению моделей объектов, который основан автоматизированном анализе частных эмпирических данных [1, 13, 24].
Универсальность алгоритмов машинного обучения обусловлена формализацией типов математических задач, на решении которых они направлены. Выделяют такие задачи, как классификация, кластеризация, регрессия, аффинитивный анализ, поиск аномалий и т.д. Каждый алгоритм машинного обучения связан с решением одного из этих типов задач [5, 10, 18, 27].
В настоящем исследовании предполагается, что существует возможность расширения возможностей алгоритмов машинного обучения за счет разработки способов переноса алгоритмов на решение других типов задач. В магистерской диссертации исследуются способы применения алгоритмов аффинитивного анализа для решения задач классификации.
Объектом исследования является аффинитивный анализ данных, предметом исследования - разработка способа построения классификатора данных на основе результатов аффинитивного анализа.
Цель исследования - разработка технологии построения классификатора данных на основе алгоритмов аффинивного анализа данных (на примере алгоритма Apriori).
Гипотеза исследования состоит в том, что ассоциативные правила, полученные в результате аффинитивного анализа можно использовать для генерирования классификатора данных.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Проведение анализа состояния вопроса по теме исследования;
2. Разработка технологии синтеза классификаторов данных на основе алгоритмов аффинитивного анализа;
3. Разработка программного обеспечения, реализующего предложенную технологию;
4. Тестирование алгоритма синтеза классификатора на данных из репозитория и обсуждение результатов.
В ходе выполнения работы применялись такие методы теоретического исследования, как изучение и анализ научной литературы по проблемам развития алгоритмов машинного обучения.
Также в ходе выполнения работы применялись практические методы исследования, такие как проведение вычислительных экспериментов, обработка статистических данных, программное моделирование работы алгоритмов машинного обучения.
Научная новизна исследования - доказано, что классификатор данных можно синтезировать на основе аффинитивного анализа исходных данных. Причем, как показывают вычислительные эксперименты в исследовании, точность работы полученного классификатора будет соизмерима с классификаторами, основанными на работе алгоритмов Random Forest и kNN.
Теоретическая значимость заключается в разработке подходов построения классификатора данных на основе ассоциативных правил. Предложена методика преобразования категориальных и числовых значений атрибутов в элементарные события, подвергающиеся аффинитивному анализу. Заработана технология синтеза классификатора данных на основе ассоциативных правил.
Практическая значимость работы заключается в разработке программного обеспечения реализующего предложенные подходы.
Достоверность и обоснованность результатов исследования обеспечивалась множеством вычислительных экспериментов на данных из репозитория «The UCI Machine Learning Repository» и сравнении результатов классификации данных с другими алгоритмами машинного обучения (Random Forest, kNN).
Личное участие автора в организации и проведения исследования состоит в выдвижении гипотезы, проведении теоретических исследований, разработке алгоритма синтеза классификатора данных на основе алгоритма Apriori, проведении вычислительных экспериментов и обработке полученных результатов.
Апробация и внедрение результатов работы велись в течение всего исследования. Его результаты докладывались на Всероссийской студенческой научно-практической междисциплинарной конференции «Молодежь. Наука. Общество».
Машинное обучение в последние годы получило широкое распространение во многих отраслях науки и техники. Рост популярности обусловлен используемым подходом к построению моделей объектов, который основан автоматизированном анализе частных эмпирических данных [1, 13, 24].
Универсальность алгоритмов машинного обучения обусловлена формализацией типов математических задач, на решении которых они направлены. Выделяют такие задачи, как классификация, кластеризация, регрессия, аффинитивный анализ, поиск аномалий и т.д. Каждый алгоритм машинного обучения связан с решением одного из этих типов задач [5, 10, 18, 27].
В настоящем исследовании предполагается, что существует возможность расширения возможностей алгоритмов машинного обучения за счет разработки способов переноса алгоритмов на решение других типов задач. В магистерской диссертации исследуются способы применения алгоритмов аффинитивного анализа для решения задач классификации.
Объектом исследования является аффинитивный анализ данных, предметом исследования - разработка способа построения классификатора данных на основе результатов аффинитивного анализа.
Цель исследования - разработка технологии построения классификатора данных на основе алгоритмов аффинивного анализа данных (на примере алгоритма Apriori).
Гипотеза исследования состоит в том, что ассоциативные правила, полученные в результате аффинитивного анализа можно использовать для генерирования классификатора данных.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Проведение анализа состояния вопроса по теме исследования;
2. Разработка технологии синтеза классификаторов данных на основе алгоритмов аффинитивного анализа;
3. Разработка программного обеспечения, реализующего предложенную технологию;
4. Тестирование алгоритма синтеза классификатора на данных из репозитория и обсуждение результатов.
В ходе выполнения работы применялись такие методы теоретического исследования, как изучение и анализ научной литературы по проблемам развития алгоритмов машинного обучения.
Также в ходе выполнения работы применялись практические методы исследования, такие как проведение вычислительных экспериментов, обработка статистических данных, программное моделирование работы алгоритмов машинного обучения.
Научная новизна исследования - доказано, что классификатор данных можно синтезировать на основе аффинитивного анализа исходных данных. Причем, как показывают вычислительные эксперименты в исследовании, точность работы полученного классификатора будет соизмерима с классификаторами, основанными на работе алгоритмов Random Forest и kNN.
Теоретическая значимость заключается в разработке подходов построения классификатора данных на основе ассоциативных правил. Предложена методика преобразования категориальных и числовых значений атрибутов в элементарные события, подвергающиеся аффинитивному анализу. Заработана технология синтеза классификатора данных на основе ассоциативных правил.
Практическая значимость работы заключается в разработке программного обеспечения реализующего предложенные подходы.
Достоверность и обоснованность результатов исследования обеспечивалась множеством вычислительных экспериментов на данных из репозитория «The UCI Machine Learning Repository» и сравнении результатов классификации данных с другими алгоритмами машинного обучения (Random Forest, kNN).
Личное участие автора в организации и проведения исследования состоит в выдвижении гипотезы, проведении теоретических исследований, разработке алгоритма синтеза классификатора данных на основе алгоритма Apriori, проведении вычислительных экспериментов и обработке полученных результатов.
Апробация и внедрение результатов работы велись в течение всего исследования. Его результаты докладывались на Всероссийской студенческой научно-практической междисциплинарной конференции «Молодежь. Наука. Общество».
Представленные в магистерской диссертации исследования позволяют сформировать следующие выводы:
• Анализ литературных источников показал, что применение технологий машинного обучения, позволяет многократно снизить трудоемкость решения задач моделирования.
• В ходе анализа существующих исследований по практическому применению технологий машинного обучения сформирована сводная таблица устанавливающая соответствие между типами решаемых задач и используемыми алгоритмами. Для каждого типа задачи приведены примеры использования алгоритмов машинного обучения.
• На основании анализа литературных источников установлено, что развитие алгоритмов машинного обучения сконцентрировано по двум направлениям: первое - увеличение степени автоматизации алгоритмов при обработке исходных данных и второе - разработку новых способов применения существующих алгоритмов, расширяющих перечень задач, которые они могут решать.
• На основании предыдущего вывода доказана актуальность проводимого исследования на тему моделирование синтеза классификаторов на основе аффинитивного анализа данных.
• Разработана технология использования алгоритма apriori для построения классификатора данных. Предложенный подход предполагает преобразование исходных данных во множество транзакций, состоящих из элементарных событий. Элементарные события, связанные с категориальными параметрами и меткой класса, генерируются на основе значений категорий. Элементарные событий связанные с числовыми признаками генерируются на основе факта принадлежности значений одному из отрезков числовой оси (рисунок 2.3). Получившееся множество транзакций анализируется с помощью алгоритма apriori для получения множества правил, связывающих элементарные события. Полученные ассоциативные правила фильтруются и модифицируются таким образом, чтобы в их правой части содержалось указание на значение метки класса. Модифицированные правила образуют классификатор. При классификации объекта каждое сработавшее правило голосует за свой класс. Классификатор присваивает объекту тут класс, который набрал большее количество голосов.
• На языке программирования Python было разработано программное обеспечение, реализующее предложенные в диссертационном исследовании подходы по построения классификатора данных на основе алгоритма Apriori.
• Вычислительные эксперименты показали, что точность классификаторов, получаемых c использованием предложенных подходов на основе алгоритма Apriori сопоставимы с точностью классификаторов, получаемых с помощью алгоритмов Random forest и kNN.
Таким образом, все поставленные задачи выполнены и достигнута цель исследования.
• Анализ литературных источников показал, что применение технологий машинного обучения, позволяет многократно снизить трудоемкость решения задач моделирования.
• В ходе анализа существующих исследований по практическому применению технологий машинного обучения сформирована сводная таблица устанавливающая соответствие между типами решаемых задач и используемыми алгоритмами. Для каждого типа задачи приведены примеры использования алгоритмов машинного обучения.
• На основании анализа литературных источников установлено, что развитие алгоритмов машинного обучения сконцентрировано по двум направлениям: первое - увеличение степени автоматизации алгоритмов при обработке исходных данных и второе - разработку новых способов применения существующих алгоритмов, расширяющих перечень задач, которые они могут решать.
• На основании предыдущего вывода доказана актуальность проводимого исследования на тему моделирование синтеза классификаторов на основе аффинитивного анализа данных.
• Разработана технология использования алгоритма apriori для построения классификатора данных. Предложенный подход предполагает преобразование исходных данных во множество транзакций, состоящих из элементарных событий. Элементарные события, связанные с категориальными параметрами и меткой класса, генерируются на основе значений категорий. Элементарные событий связанные с числовыми признаками генерируются на основе факта принадлежности значений одному из отрезков числовой оси (рисунок 2.3). Получившееся множество транзакций анализируется с помощью алгоритма apriori для получения множества правил, связывающих элементарные события. Полученные ассоциативные правила фильтруются и модифицируются таким образом, чтобы в их правой части содержалось указание на значение метки класса. Модифицированные правила образуют классификатор. При классификации объекта каждое сработавшее правило голосует за свой класс. Классификатор присваивает объекту тут класс, который набрал большее количество голосов.
• На языке программирования Python было разработано программное обеспечение, реализующее предложенные в диссертационном исследовании подходы по построения классификатора данных на основе алгоритма Apriori.
• Вычислительные эксперименты показали, что точность классификаторов, получаемых c использованием предложенных подходов на основе алгоритма Apriori сопоставимы с точностью классификаторов, получаемых с помощью алгоритмов Random forest и kNN.
Таким образом, все поставленные задачи выполнены и достигнута цель исследования.





