🔍 Поиск работ

Разработка приложения для подбора моделей машинного обучения на основе подхода AutoML

Работа №207338

Тип работы

Дипломные работы, ВКР

Предмет

программирование

Объем работы46
Год сдачи2020
Стоимость4460 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
14
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 7
1.1. Обзор аналогов и существующих решений 7
1.2. Обработка данных 8
1.3. Выбор модели машинного обучения 9
1.4. Оценка точности модели 11
1.5. Оптимизация гиперпараметров 12
1.6. Пространство поиска 13
2. ПРОЕКТИРОВАНИЕ 14
2.1. Функциональные требования 14
2.2. Нефункциональные требования 14
2.3. Варианты использования системы 14
2.4. Диаграмма деятельности 16
2.5. Архитектура системы 17
3. РЕАЛИЗАЦИЯ 20
3.1. Модуль подбора моделей 20
3.2. Модуль пользовательского интерфейса 26
3.3. Графический пользовательский интерфейс 28
4. ТЕСТИРОВАНИЕ 32
4.1. Функциональное тестирование 32
4.2. Тестирование на публичных наборах данных 34
ЗАКЛЮЧЕНИЕ 37
ЛИТЕРАТУРА 38
ПРИЛОЖЕНИЯ 42
Приложение А. Листинги модуля подбора моделей 42
Приложение Б. Листинги модуля пользовательского интерфейса 45


Основные определения
Машинное обучение (англ. Machine learning, ML) - это дисциплина, изучающая алгоритмы, которые обучаются на данных [3].
Автоматизированное машинное обучение (англ. Automated machine learning, AutoML) - это область машинного обучения, задача которой автоматизировать стандартные процессы, возникающие в ходе применения машинного обучения и анализа данных, к задачам реальной жизни [8].
Гиперпараметры (англ. Hyperparameter) - параметры алгоритма, которые не могут быть изучены во время процесса тренировки и значения которых устанавливаются заранее [3].
Оптимизация гиперпараметров (англ. Hyperparameter optimization, HPO) - задача поиска оптимальных значений гиперпараметров алгоритма машинного обучения [1].
Признак (англ. feature) - это некая обособленная измеримая характеристика или свойство некого явления [3].
Графический пользовательский интерфейс (англ. graphical user interface, GUI) - способ размещения информации на экране компьютера, который легко воспринимается, так как в нем используются иконки, меню и мышь, а не только текст [22].
Актуальность темы исследования
Машинное обучение достигло значительных успехов в интернет рекламе, рекомендательных системах, анализе финансовых рынков, компьютерном зрении, вычислительной лингвистике, биоинформатике и во многих других областях. Тем не менее, его успех в значительной мере зависит от людей-экспертов в машинном обучении, так как эксперты в той или иной степени вовлечены во все этапы машинного обучения. Люди всё ещё принимают критически важные решения в таких задачах как, преобразование жизненной задачи в задачу машинного обучения, сбор данных, форматирование и предобработка данных, конструирование признаков, выбор 4
или проектирование архитектуры модели, оптимизация гиперпараметров, оценка эффективности модели, развертывание подобранного решения [5].
Добиться приемлемых результатов обучения - наукоемкая и трудозатратная задача. Ввиду необходимости упростить применение технологий машинного обучения, а также уменьшить потребность в специалистах, автоматизированное машинное обучение (AutoML) на сегодняшний день стало одной из важнейших тем, представляющей как промышленный, так и академический интерес. Также AutoML может сделать машинное обучение еще более доступным для повсеместного использования в жизни [21].
AutoML может повысить производительность работы при одновременной экономии значительного количества времени и денег, поскольку специалистов по машинному обучению находить сложно и дорого. В последнее время резко возрос коммерческий интерес к AutoML, и в настоящее время несколько крупных технологических компаний разрабатывают свои собственные системы AutoML [8].
Свои AutoML решения имеют: Google (Cloud AutoML), Microsoft (Azure Machine Learning), Amazon (SageMaker Autopilot).
По данным сайта Google Trends, поисковые запросы «AutoML» и «Automated machine learning» с начала 2017 начали испытывать заметный прирост интереса. Данные поисковые запросы на текущий момент переживают пик интереса по всему миру, в особенности в КНР, а также Сингапуре, Южной Корее, Тайване и Гонконге, т.н. четырех странах-азиатских тиграх.
Однако идея автоматизации процесса машинного обучения не нова. Попытки решить проблему подбора моделей машинного обучения проводились еще в 1975 году [15].
Также существует множество свободных AutoML решений с открытым исходным кодом.
В ряде задач методы AutoML уже превосходят специалистов по машинному обучению [8].
Цель и задачи исследования
Целью данной работы является разработка приложения для подбора моделей машинного обучения на основе подхода AutoML.
Для достижения поставленной цели необходимо решить следующие задачи, перечисленные ниже.
1. Выполнить обзор научной литературы и существующих решений по данной теме.
2. Определить требования к приложению.
3. Выполнить проектирование архитектуры приложения.
4. Реализовать приложение.
5. Выполнить тестирование приложения.
Структура и объем работы
Работа состоит из введения, четырех глав, заключения, списка литературы и приложения.
В первой главе выполняется обзор аналогов разрабатываемого приложения, а также существующих решений данной задачи путем обзора научной литературы.
Во второй главе описаны функциональные и нефункциональные требования, представлены диаграммы вариантов использования и деятельности, описана архитектура системы.
В третьей главе приводится реализация приложения на основе составленного списка требований.
В четвертой главе приводятся протоколы функционального тестирования, а также результаты тестирования системы на некоторых популярных наборах данных.
В заключении приводятся основные результаты работы и рассматриваются направления дальнейших исследований.
В приложении приводится код некоторых элементов системы.
Объем работы составляет 46 страниц, объем списка литературы - 39 источников.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной выпускной квалификационной работы было разработано приложение для подбора моделей машинного обучения с использованием подхода AutoML.
Были выполнены все поставленные задачи.
1. Выполнен обзор научной литературы и существующих решений по данной теме.
2. Выполнено определение требований к приложению.
3. Выполнено проектирование архитектуры приложения.
4. Выполнена реализация приложения.
5. Выполнено тестирование приложения.
Система доказала свою способность находить модели согласно указанным требованиям.
Дальнейшим развитием системы будет:
1) включение большего количества алгоритмов предварительной обработки в задачу CASH;
2) добавление иных алгоритмов классификации и оптимизации гиперпараметров;
3) больший упор на искусственные нейронные сети и NAS;
4) разработка модуля улучшающего точность за счет применения алгоритмов ансамблирования;
5) изучение методов мета обучения;
6) поддержка временных рядов;
7) упор на максимальное использование выделенных вычислительных мощностей;
8) сохранение состояния поиска с возможностью в дальнейшем продолжить поиск с этого состояния;
9) реализация поиска только по времени или только по максимальному числу итераций или в комбинации (сейчас только в комбинации).



1. Bergstra J. [и др.]. Algorithms for hyper-parameter optimization 2011.
2. Bergstra J., Bengio Y. Random search for hyper-parameter optimization // Journal of Machine Learning Research. 2012.
3. Bishop C.M. Machine Learning and Pattern Recoginiton / C.M. Bishop, 2006.
4. Eggensperger K. [и др.]. Towards an Empirical Foundation for Assessing Bayesian Optimization of Hyperparameters // BayesOpt workshop (NIPS). 2013.
5. Escalante H.J. [и др.]. AutoML @ NeurIPS 2018 Challenge: Design and Results 2020.
6. Fernandez-Delgado M. [и др.]. Do we need hundreds of classifiers to solve real world classification problems? // Journal of Machine Learning Research. 2014. (15). C. 3133-3181.
7. Feurer M. [и др.]. Efficient and robust automated machine learning 2015.
8. Guyon I. [и др.]. Analysis of the AutoML Challenge Series 2015-2018 2019.
9. Hall M. [и др.]. The WEKA data mining software: An update // ACM SIGKDD Explorations Newsletter. 2009.
10. Komer B., Bergstra J., Eliasmith C. Hyperopt-Sklearn: Automatic Hyperparameter Configuration for Scikit-Learn 2014.
11. Kotthoff L. [и др.]. Auto-WEKA 2.0: Automatic model selection and hyperparameter optimization in WEKA // Journal of Machine Learning Research. 2017.
12. LeCun Y., Cortes C., Burges C. THE MNIST DATABASE of handwritten digits // The Courant Institute of Mathematical Sciences. 1998.
13. Pedregosa F. [и др.]. Scikit-learn: Machine learning in Python // Journal of Machine Learning Research. 2011.
14. Probst P., Boulesteix A.L., Bischl B. Tunability: Importance of hyperparameters of machine learning algorithms // Journal of Machine Learning Research. 2019.
15. Rice J.R. The Algorithm Selection Problem // Advances in Computers. 1976.
..39


Работу высылаем на протяжении 30 минут после оплаты.




©2026 Cервис помощи студентам в выполнении работ