Введение 3
1 Анализ перспектив развития алгоритмов машинного обучения 6
1.1 Анализ тенденций в области машинного обучения 6
1.2 Построение классификатора для анализа изображений 17
1.3 Перспективы развития алгоритмов машинного обучения 21
2 Разработка технологии синтеза классификаторов на основе аффинитивного анализа данных 26
2.1 Математическая модель алгоритма Apriori 26
2.2 Синтез классификатора на основе модифицирования ассоциативных правил 34
3 Проведение тестирования предложенных подходов 40
3.1 Программная реализация предложенных подходов 40
3.2 Реализация интерфейса 60
3.3 Проведение вычислительных экспериментов 67
Заключение 73
Список используемой литературы 75
Актуальность и научная значимость исследования определена необходимостью развития способов применения алгоритмов машинного обучения при решении практических задач.
Машинное обучение в последние годы получило широкое распространение во многих отраслях науки и техники. Рост популярности обусловлен используемым подходом к построению моделей объектов, который основан автоматизированном анализе частных эмпирических данных [1, 13, 24].
Универсальность алгоритмов машинного обучения обусловлена формализацией типов математических задач, на решении которых они направлены. Выделяют такие задачи, как классификация, кластеризация, регрессия, аффинитивный анализ, поиск аномалий и т.д. Каждый алгоритм машинного обучения связан с решением одного из этих типов задач [5, 10, 18, 27].
В настоящем исследовании предполагается, что существует возможность расширения возможностей алгоритмов машинного обучения за счет разработки способов переноса алгоритмов на решение других типов задач. В магистерской диссертации исследуются способы применения алгоритмов аффинитивного анализа для решения задач классификации.
Объектом исследования является аффинитивный анализ данных, предметом исследования - разработка способа построения классификатора данных на основе результатов аффинитивного анализа.
Цель исследования - разработка технологии построения классификатора данных на основе алгоритмов аффинивного анализа данных (на примере алгоритма Apriori).
Гипотеза исследования состоит в том, что ассоциативные правила, полученные в результате аффинитивного анализа можно использовать для генерирования классификатора данных.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Проведение анализа состояния вопроса по теме исследования;
2. Разработка технологии синтеза классификаторов данных на основе алгоритмов аффинитивного анализа;
3. Разработка программного обеспечения, реализующего предложенную технологию;
4. Тестирование алгоритма синтеза классификатора на данных из репозитория и обсуждение результатов.
В ходе выполнения работы применялись такие методы теоретического исследования, как изучение и анализ научной литературы по проблемам развития алгоритмов машинного обучения.
Также в ходе выполнения работы применялись практические методы исследования, такие как проведение вычислительных экспериментов, обработка статистических данных, программное моделирование работы алгоритмов машинного обучения.
Научная новизна исследования - доказано, что классификатор данных можно синтезировать на основе аффинитивного анализа исходных данных. Причем, как показывают вычислительные эксперименты в исследовании, точность работы полученного классификатора будет соизмерима с классификаторами, основанными на работе алгоритмов Random Forest и kNN.
Теоретическая значимость заключается в разработке подходов построения классификатора данных на основе ассоциативных правил. Предложена методика преобразования категориальных и числовых значений атрибутов в элементарные события, подвергающиеся аффинитивному анализу. Заработана технология синтеза классификатора данных на основе ассоциативных правил.
Практическая значимость работы заключается в разработке программного обеспечения реализующего предложенные подходы.
Достоверность и обоснованность результатов исследования обеспечивалась множеством вычислительных экспериментов на данных из репозитория «The UCI Machine Learning Repository» и сравнении результатов классификации данных с другими алгоритмами машинного обучения (Random Forest, kNN).
Личное участие автора в организации и проведения исследования состоит в выдвижении гипотезы, проведении теоретических исследований, разработке алгоритма синтеза классификатора данных на основе алгоритма Apriori, проведении вычислительных экспериментов и обработке полученных результатов.
Апробация и внедрение результатов работы велись в течение всего исследования. Его результаты докладывались на Всероссийской студенческой научно-практической междисциплинарной конференции «Молодежь. Наука. Общество».
Представленные в магистерской диссертации исследования позволяют сформировать следующие выводы:
• Анализ литературных источников показал, что применение технологий машинного обучения, позволяет многократно снизить трудоемкость решения задач моделирования.
• В ходе анализа существующих исследований по практическому применению технологий машинного обучения сформирована сводная таблица устанавливающая соответствие между типами решаемых задач и используемыми алгоритмами. Для каждого типа задачи приведены примеры использования алгоритмов машинного обучения.
• На основании анализа литературных источников установлено, что развитие алгоритмов машинного обучения сконцентрировано по двум направлениям: первое - увеличение степени автоматизации алгоритмов при обработке исходных данных и второе - разработку новых способов применения существующих алгоритмов, расширяющих перечень задач, которые они могут решать.
• На основании предыдущего вывода доказана актуальность проводимого исследования на тему моделирование синтеза классификаторов на основе аффинитивного анализа данных.
• Разработана технология использования алгоритма apriori для построения классификатора данных. Предложенный подход предполагает преобразование исходных данных во множество транзакций, состоящих из элементарных событий. Элементарные события, связанные с категориальными параметрами и меткой класса, генерируются на основе значений категорий. Элементарные событий связанные с числовыми признаками генерируются на основе факта принадлежности значений одному из отрезков числовой оси (рисунок 2.3). Получившееся множество транзакций анализируется с помощью алгоритма apriori для получения множества правил, связывающих элементарные события. Полученные ассоциативные правила фильтруются и модифицируются таким образом, чтобы в их правой части содержалось указание на значение метки класса. Модифицированные правила образуют классификатор. При классификации объекта каждое сработавшее правило голосует за свой класс. Классификатор присваивает объекту тут класс, который набрал большее количество голосов.
• На языке программирования Python было разработано программное обеспечение, реализующее предложенные в диссертационном исследовании подходы по построения классификатора данных на основе алгоритма Apriori.
• Вычислительные эксперименты показали, что точность классификаторов, получаемых c использованием предложенных подходов на основе алгоритма Apriori сопоставимы с точностью классификаторов, получаемых с помощью алгоритмов Random forest и kNN.
Таким образом, все поставленные задачи выполнены и достигнута цель исследования.
1. Арзаманов, Н.А. Технология машинного обучения и ее практическое применение / Н.А. Арзамазов, Н.И. Ематина // Исследование различных направлений современной науки - материалы XXI Международной научно-практической конференции. В 2-х частях. 24 апреля 2017. - Научный центр "Олимп" (Астрахань), 2017. - с. 7-10. - Текст : непосредственный.
2. Аусабаев, Д.М. Использование машинного обучения в поддержке принятия решений / Д.М. Аусабаев, О.П. Волобуев // Прикладная математика и информатика: современные исследования в области естественных и технических наук - материалы III научно-практической всероссийской конференции (школы-семинара) молодых ученых. Тольятти, 24-25 апреля 2017 года. - Издатель Качалин Александр Васильевич, 2017. - с. 43-47. - Текст : непосредственный.
3. Власов, А.В. Машинное обучение применительно к задаче классификации семян зерновых культур в видеопотоке / А.В. Власов, А.С. Федеев // Молодежь и современные информационные технологии - сборник трудов XIV Международной научно-практической конференции студентов, аспирантов и молодых учёных, 07-11 ноября 2016. - Национальный исследовательский Томский политехнический университет (Томск), 2016. - с. 133-135. - Текст : непосредственный.
4. Жуков, Д.А. Формирование контрольных выборок при технической диагностике объекта с применением машинного обучения / Д.А. Жуков, А.С. Хорева, Ю.Е. Кувайскова, В.Н. Клячкин // Математические методы и модели: теория, приложения и роль в образовании - международная научно-техническая конференция : сборник научных трудов, 28-30 апреля 2016 года. - Ульяновский государственный технический университет (Ульяновск), 2016. - с. 44-48. - Текст : непосредственный.
5. Иванников Ю.Ю. Применение методов машинного обучения для выявления бот-трафика среди запросов к веб-приложению / Ю.Ю. Иванников, Е.Ю. Митрофанова // Сборник студенческих научных работ факультета компьютерных наук ВГУ, Факультет компьютерных наук, 2017. - ФГБОУ ВО «Воронежский государственный университет», 2017. - с. 119123. - Текст : непосредственный.
6. Клячин В.Н. Использование агрегированных классификаторов при технической диагностике на базе машинного обучения / В.Н. Клячин, Ю.Е. Кувайскова, Д.А. Жуков // Информационные технологии и нанотехнологии (ИТНТ-2017) - сборник трудов III международной конференции и молодежной школы. Самарский национальный исследовательский университет имени академика С.П. Королева. 2017. - Предприятие "Новая техника" (Самара), 2017. - с. 1770-1773. - Текст : непосредственный.
7. Кононова, Н.В. Исследование подсистемы контентной фильтрации с использованием методов машинного обучения / Н.В. Кононова, Ю.А. Андрусенко, Т.А. Самокаева // Студенческая наука для развития информационного общества - сборник материалов VI Всероссийской научно-технической конференции. 22-26 мая 2017. - Северо-Кавказский федеральный университет (Ставрополь), 2017. - с. 268-270. - Текст : непосредственный.
8. Мелдебай, М.А. Анализ мнений покупателей на основе машинного обучения / М.А. Мелдебай, А.К. Сарбасова // Прикладная математика и информатика: современные исследования в области естественных и технических наук - материалы III научно-практической всероссийской конференции (школы-семинара) молодых ученых. 24-25 апреля 2017 года. - Издатель Качалин Александр Васильевич, 2017. - с. 360363. - Текст : непосредственный.
9. Наумов, Д.П. Регулятор CAP на основе машинного обучения / Д.П. Наумов, Д.П. Стариков // Информационные технологии в управлении, автоматизации и мехатронике - сборник научных трудов Международной научно-технической конференции. 06-07 апреля 2017 года. - ЗАО "Университетская книга" (Курск), 2017. - с. 106-114. - Текст : непосредственный.
10. Осколков, В.М. Использование метода машинного обучения для повышения продуктивности на предприятии / В.М. Осколков, Н.И. Шаханов, И.А. Варфоломеев, О.В. Юдина, Е.В. Ершов // Автоматизация и энергосбережение машиностроительного и металлургического производств, технология и надежность машин, приборов и оборудования - материалы XII Международной научно-технической конференции, 21 марта 2017. - Вологодский государственный университет (Вологда), 2017. - с. 177-180. - Текст : непосредственный.
11. Осколков, В.М. Применение параллельных вычислений для прогнозирования на основе алгоритма машинного обучения Random Forest / В.М. Осколков, Н.И. Шаханов, И.А. Варфоломеев, О.В. Юдина, Л.Н. Виноградова, Е.В. Ершов // Сборник трудов конференции Оптикоэлектронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Распознавание, Курск, 16-19 мая 2017 года. - Юго-Западный государственный университет (Курск), 2017. - с. 267-269. - Текст : непосредственный.
12. Соловьев, А.Ю. Применение машинного обучения для прогнозирования неблагоприятных исходов в ургентной хирургии / Соловьев А.Ю., Берегов М.М., Вахеева Ю.М., Баутин А.Н., Гусев А.В. // Медикобиологические, клинические и социальные вопросы здоровья и патологии человека - материалы III Всероссийской образовательно-научной конференции студентов и молодых ученых с международным участием в рамках XIII областного фестиваля "Молодые ученые - развитию Ивановской области". 2017. - Ивановская государственная медицинская академия (Иваново), 2017. - с. 129-130. - Текст : непосредственный.
13. Ткач, Т.Ч. Машинное обучение и обработка больших данных - обучение в основной и средней школе / Т.Ч. Ткач // Актуальные проблемы методики обучения информатике и математике в современной школе - материалы международной научно-практической интернет-конференции. Московский педагогический государственный университет, Москва, 24 апреля 2020 года. - Московский педагогический государственный университет (Москва), 2020. - с. 217-223. - Текст : непосредственный.
14. Федотов, И.А. Применение технологий машинного обучения для прогнозирования ситуации на финансовых рынках / И.А. Федотов // Студенческая наука для развития информационного общества - сборник материалов VI Всероссийской научно-технической конференции. 22-26 мая 2017. - Северо-Кавказский федеральный университет (Ставрополь), 2017. - с. 361-363. - Текст: непосредственный.
15. Шогунова, Н.М. Разработка программы компьютерного зрения для локализации объектов на изображении и видеопотоке / Н.М. Шогунова, В.Я. Олексюк // Сборник статей Всероссийской студенческой научнопрактической междисциплинарной конференции «Молодежь. Наука. Общество». 2020. - Тольяттинский государственный университет, 2020. - Текст : непосредственный.
...ё