Тип работы:
Предмет:
Язык работы:


Извлечение признаков из данных высокой размерности

Работа №130439

Тип работы

Бакалаврская работа

Предмет

информационные системы

Объем работы21
Год сдачи2017
Стоимость4650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
40
Не подходит работа?

Узнай цену на написание


Введение 4
1. Описание данные 5
1.1. Реальные данные 5
2. Постановка задачи 6
2.1. Формальная постановка задачи 6
2.2. Методика постановки эксперимента 6
2.3. Используемые метрики 7
3. Описание методов извлечения признаков 8
3.1. Переборные методы 8
3.2. Генетический алгоритм для извлечения признаков 8
3.3. Основанные на похожести признаков 9
3.4. Как извлекать ранжирующие списки из моделей машинного обучения 10
3.5. DFS - deep feature selection 10
3.6. HVS 11
3.7. Методы с производными 11
3.8. Комбинация DFS и производных по входам 12
4. Эксперименты и результаты 13
4.1. Построение базовых моделей для задачи предсказания пола 13
4.2. Сравнительный анализ различных методов 14
4.3. Улучшение с помощью генетического алгоритма 16
5. Заключение 17
6. Дополнительные материалы 18
6.1. Гиперпараметры алгоритмов машинного обучения 18
Список литературы 20

В настоящее время человеческая цивилизация накопила огромный объем данных в самых различных сферах и это приводит к тому, что можно эффективно применять машинное обучение для множества за­дач. В некоторых задачах объекты имеют очень высокую размерность, что негативно сказывается на времени обучения. Так же, многие из при­знаков, описыващие объект на самом деле не являются сколько бы то ни было важными, на самом деле можно их исключить и это с высокой вероятностью положительно скажется на результате.
Итак, первый плюс извлечения признаков - ускорение сходимости алгоритмов машинного обучения, что делает их применимыми на прак­тике.
Многие из методов не просто позволяют отобрать признаки по какому- то порогу, а отранжировать их. Определить какой вклад вносит тот или иной признак для решения задачи. Это позволяют лучше понимать по­нимать предметную область.
Пример: задача предсказания пола (возраста), наличия какого-либо заболевания по генной экспрессии. В подобных задачах очень много признаков (порядка 15000), в подобных задачах можно отобрать на порядок меньше признаков, на которых модели машинного обучения будут давать такие же значения по метрикам или выше, чем на ориги­нальном наборе и обучаться быстрее. Ученые, хорошо знающие пред­метную область могут посмотреть на топ признаков и понять на какие именно гены нужно изучить с биологической точки зрения).

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе были описаны различные методы Feature Selection, каждый из них был применен на реальных данных. Был придуман и протестиро­ван новый метод извлечения признаков, полученный комбинираванием DFS и методов, основанных на производных. Показана модификация генетического алгоритма для извлечения признаков.


[1] Chen Tianqi, Guestrin Carlos. XGBoost: A Scalable Tree Boosting System // CoRR.- 2016.- Vol. abs/1603.02754. - URL: http:// arxiv.org/abs/1603.02754.
[2] Chollet Franqois et al. Keras.— https://github.com/fchollet/ keras. — 2015.
[3] Effiicient BackProp / Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Muller // Neural Networks: Tricks of the Trade, This Book is an Outgrowth of a 1996 NIPS Workshop. — London, UK, UK : Springer-Verlag, 1998.— P. 9-50.— URL: http://dl.acm.org/ citation.cfm?id=645754.668382.
[4] Genuer Robin, Poggi Jean-Michel, Tuleau-Malot Christine. Variable Selection Using Random Forests // Pattern Recogn. Lett. — 2010. — .-Vol. 31, no. 14. — P. 2225-2236.-URL: http://dx.doi.org/10. 1016/j.patrec.2010.03.014.
[5] Gradient Boosted Feature Selection / Zhixiang Xu, Gao Huang, Kilian Q. Weinberger, Alice X. Zheng // Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. - KDD ’14.- New York, NY, USA : ACM, 2014.- P. 522-531. — URL: http://doi.acm.org/10.1145/2623330.2623635.
[6] Gu Quanquan, Li Zhenhui, Han Jiawei. Generalized Fisher Score for Feature Selection // CoRR.— 2012.— Vol. abs/1202.3725. — URL: http://arxiv.org/abs/1202.3725.
[7] Kira Kenji, Rendell Larry A. The Feature Selection Problem: Traditional Methods and a New Algorithm // Proceedings of the Tenth National Conference on Artificial Intelligence. — AAAI’92. — AAAI Press, 1992.— P. 129-134.— URL: http://dl.acm.org/citation. cfm?id=1867135.1867155.
[8] Li Yifeng, Chen Chih-Yu, Wasserman Wyeth W. Deep Feature Selection: Theory and Application to Identify Enhancers and Promoters // Research in Computational Molecular Biology: 19th Annual International Conference, RECOMB 2015, Warsaw, Poland, April 12-15, 2015, Proceedings / Ed. by Teresa M. Przytycka.— Cham : Springer International Publishing, 2015.— P. 205-217.— ISBN: 978-3-319-16706-0.— URL: http://dx.doi.org/10.1007/ 978-3-319-16706-0_20.
[9] Scikit-learn: Machine Learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort et al. // Journal of Machine Learning Research. — 2011. — Vol. 12. — P. 2825-2830.
[10] Verikas A., Bacauskiene M. Feature Selection with Neural Networks // Pattern Recogn. Lett. — 2002. — . — Vol. 23, no. 11. — P. 1323-1335. — URL: http://dx.doi.org/10.1016/S0167-8655(02)00081-8.
[11] Yacoub M., Bennani Y. HVS: A Heuristic for Variable Selection in Multilayer Artificial Neural Network Classifier. — Intelligent Engineering Systems through Artificial Neural Networks, St. Louis, 1997.
[12] Zhang Zhongheng. Variable selection with stepwise and best subset approaches // Annals of Translational Medicine.— 2016.— Vol. 4, no. 7. — URL: http://atm.amegroups.com/article/view/9706.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ