Введение 4
1. Описание данные 5
1.1. Реальные данные 5
2. Постановка задачи 6
2.1. Формальная постановка задачи 6
2.2. Методика постановки эксперимента 6
2.3. Используемые метрики 7
3. Описание методов извлечения признаков 8
3.1. Переборные методы 8
3.2. Генетический алгоритм для извлечения признаков 8
3.3. Основанные на похожести признаков 9
3.4. Как извлекать ранжирующие списки из моделей машинного обучения 10
3.5. DFS - deep feature selection 10
3.6. HVS 11
3.7. Методы с производными 11
3.8. Комбинация DFS и производных по входам 12
4. Эксперименты и результаты 13
4.1. Построение базовых моделей для задачи предсказания пола 13
4.2. Сравнительный анализ различных методов 14
4.3. Улучшение с помощью генетического алгоритма 16
5. Заключение 17
6. Дополнительные материалы 18
6.1. Гиперпараметры алгоритмов машинного обучения 18
Список литературы 20
В настоящее время человеческая цивилизация накопила огромный объем данных в самых различных сферах и это приводит к тому, что можно эффективно применять машинное обучение для множества задач. В некоторых задачах объекты имеют очень высокую размерность, что негативно сказывается на времени обучения. Так же, многие из признаков, описыващие объект на самом деле не являются сколько бы то ни было важными, на самом деле можно их исключить и это с высокой вероятностью положительно скажется на результате.
Итак, первый плюс извлечения признаков - ускорение сходимости алгоритмов машинного обучения, что делает их применимыми на практике.
Многие из методов не просто позволяют отобрать признаки по какому- то порогу, а отранжировать их. Определить какой вклад вносит тот или иной признак для решения задачи. Это позволяют лучше понимать понимать предметную область.
Пример: задача предсказания пола (возраста), наличия какого-либо заболевания по генной экспрессии. В подобных задачах очень много признаков (порядка 15000), в подобных задачах можно отобрать на порядок меньше признаков, на которых модели машинного обучения будут давать такие же значения по метрикам или выше, чем на оригинальном наборе и обучаться быстрее. Ученые, хорошо знающие предметную область могут посмотреть на топ признаков и понять на какие именно гены нужно изучить с биологической точки зрения).
В работе были описаны различные методы Feature Selection, каждый из них был применен на реальных данных. Был придуман и протестирован новый метод извлечения признаков, полученный комбинираванием DFS и методов, основанных на производных. Показана модификация генетического алгоритма для извлечения признаков.
[1] Chen Tianqi, Guestrin Carlos. XGBoost: A Scalable Tree Boosting System // CoRR.- 2016.- Vol. abs/1603.02754. - URL: http:// arxiv.org/abs/1603.02754.
[2] Chollet Franqois et al. Keras.— https://github.com/fchollet/ keras. — 2015.
[3] Effiicient BackProp / Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Muller // Neural Networks: Tricks of the Trade, This Book is an Outgrowth of a 1996 NIPS Workshop. — London, UK, UK : Springer-Verlag, 1998.— P. 9-50.— URL: http://dl.acm.org/ citation.cfm?id=645754.668382.
[4] Genuer Robin, Poggi Jean-Michel, Tuleau-Malot Christine. Variable Selection Using Random Forests // Pattern Recogn. Lett. — 2010. — .-Vol. 31, no. 14. — P. 2225-2236.-URL: http://dx.doi.org/10. 1016/j.patrec.2010.03.014.
[5] Gradient Boosted Feature Selection / Zhixiang Xu, Gao Huang, Kilian Q. Weinberger, Alice X. Zheng // Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. - KDD ’14.- New York, NY, USA : ACM, 2014.- P. 522-531. — URL: http://doi.acm.org/10.1145/2623330.2623635.
[6] Gu Quanquan, Li Zhenhui, Han Jiawei. Generalized Fisher Score for Feature Selection // CoRR.— 2012.— Vol. abs/1202.3725. — URL: http://arxiv.org/abs/1202.3725.
[7] Kira Kenji, Rendell Larry A. The Feature Selection Problem: Traditional Methods and a New Algorithm // Proceedings of the Tenth National Conference on Artificial Intelligence. — AAAI’92. — AAAI Press, 1992.— P. 129-134.— URL: http://dl.acm.org/citation. cfm?id=1867135.1867155.
[8] Li Yifeng, Chen Chih-Yu, Wasserman Wyeth W. Deep Feature Selection: Theory and Application to Identify Enhancers and Promoters // Research in Computational Molecular Biology: 19th Annual International Conference, RECOMB 2015, Warsaw, Poland, April 12-15, 2015, Proceedings / Ed. by Teresa M. Przytycka.— Cham : Springer International Publishing, 2015.— P. 205-217.— ISBN: 978-3-319-16706-0.— URL: http://dx.doi.org/10.1007/ 978-3-319-16706-0_20.
[9] Scikit-learn: Machine Learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort et al. // Journal of Machine Learning Research. — 2011. — Vol. 12. — P. 2825-2830.
[10] Verikas A., Bacauskiene M. Feature Selection with Neural Networks // Pattern Recogn. Lett. — 2002. — . — Vol. 23, no. 11. — P. 1323-1335. — URL: http://dx.doi.org/10.1016/S0167-8655(02)00081-8.
[11] Yacoub M., Bennani Y. HVS: A Heuristic for Variable Selection in Multilayer Artificial Neural Network Classifier. — Intelligent Engineering Systems through Artificial Neural Networks, St. Louis, 1997.
[12] Zhang Zhongheng. Variable selection with stepwise and best subset approaches // Annals of Translational Medicine.— 2016.— Vol. 4, no. 7. — URL: http://atm.amegroups.com/article/view/9706.