Извлечение признаков из данных высокой размерности

Содержание

Введение 4
1. Описание данные 5
1.1. Реальные данные 5
2. Постановка задачи 6
2.1. Формальная постановка задачи 6
2.2. Методика постановки эксперимента 6
2.3. Используемые метрики 7
3. Описание методов извлечения признаков 8
3.1. Переборные методы 8
3.2. Генетический алгоритм для извлечения признаков 8
3.3. Основанные на похожести признаков 9
3.4. Как извлекать ранжирующие списки из моделей машинного обучения 10
3.5. DFS - deep feature selection 10
3.6. HVS 11
3.7. Методы с производными 11
3.8. Комбинация DFS и производных по входам 12
4. Эксперименты и результаты 13
4.1. Построение базовых моделей для задачи предсказания пола 13
4.2. Сравнительный анализ различных методов 14
4.3. Улучшение с помощью генетического алгоритма 16
5. Заключение 17
6. Дополнительные материалы 18
6.1. Гиперпараметры алгоритмов машинного обучения 18
Список литературы 20

Введение

В настоящее время человеческая цивилизация накопила огромный объем данных в самых различных сферах и это приводит к тому, что можно эффективно применять машинное обучение для множества задач. В некоторых задачах объекты имеют очень высокую размерность, что негативно сказывается на времени обучения. Так же, многие из признаков, описыващие объект на самом деле не являются сколько бы то ни было важными, на самом деле можно их исключить и это с высокой вероятностью положительно скажется на результате.
Итак, первый плюс извлечения признаков - ускорение сходимости алгоритмов машинного обучения, что делает их применимыми на практике.
Многие из методов не просто позволяют отобрать признаки по какому- то порогу, а отранжировать их. Определить какой вклад вносит тот или иной признак для решения задачи. Это позволяют лучше понимать понимать предметную область.
Пример: задача предсказания пола (возраста), наличия какого-либо заболевания по генной экспрессии. В подобных задачах очень много признаков (порядка 15000), в подобных задачах можно отобрать на порядок меньше признаков, на которых модели машинного обучения будут давать такие же значения по метрикам или выше, чем на оригинальном наборе и обучаться быстрее. Ученые, хорошо знающие предметную область могут посмотреть на топ признаков и понять на какие именно гены нужно изучить с биологической точки зрения).

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В работе были описаны различные методы Feature Selection, каждый из них был применен на реальных данных. Был придуман и протестирован новый метод извлечения признаков, полученный комбинираванием DFS и методов, основанных на производных. Показана модификация генетического алгоритма для извлечения признаков.

Литература

[1] Chen Tianqi, Guestrin Carlos. XGBoost: A Scalable Tree Boosting System // CoRR.- 2016.- Vol. abs/1603.02754. - URL: http:// arxiv.org/abs/1603.02754.
[2] Chollet Franqois et al. Keras.— https://github.com/fchollet/ keras. — 2015.
[3] Effiicient BackProp / Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Muller // Neural Networks: Tricks of the Trade, This Book is an Outgrowth of a 1996 NIPS Workshop. — London, UK, UK : Springer-Verlag, 1998.— P. 9-50.— URL: http://dl.acm.org/ citation.cfm?id=645754.668382.
[4] Genuer Robin, Poggi Jean-Michel, Tuleau-Malot Christine. Variable Selection Using Random Forests // Pattern Recogn. Lett. — 2010. — .-Vol. 31, no. 14. — P. 2225-2236.-URL: http://dx.doi.org/10. 1016/j.patrec.2010.03.014.
[5] Gradient Boosted Feature Selection / Zhixiang Xu, Gao Huang, Kilian Q. Weinberger, Alice X. Zheng // Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. - KDD ’14.- New York, NY, USA : ACM, 2014.- P. 522-531. — URL: http://doi.acm.org/10.1145/2623330.2623635.
[6] Gu Quanquan, Li Zhenhui, Han Jiawei. Generalized Fisher Score for Feature Selection // CoRR.— 2012.— Vol. abs/1202.3725. — URL: http://arxiv.org/abs/1202.3725.
[7] Kira Kenji, Rendell Larry A. The Feature Selection Problem: Traditional Methods and a New Algorithm // Proceedings of the Tenth National Conference on Artificial Intelligence. — AAAI’92. — AAAI Press, 1992.— P. 129-134.— URL: http://dl.acm.org/citation. cfm?id=1867135.1867155.
[8] Li Yifeng, Chen Chih-Yu, Wasserman Wyeth W. Deep Feature Selection: Theory and Application to Identify Enhancers and Promoters // Research in Computational Molecular Biology: 19th Annual International Conference, RECOMB 2015, Warsaw, Poland, April 12-15, 2015, Proceedings / Ed. by Teresa M. Przytycka.— Cham : Springer International Publishing, 2015.— P. 205-217.— ISBN: 978-3-319-16706-0.— URL: http://dx.doi.org/10.1007/ 978-3-319-16706-0_20.
[9] Scikit-learn: Machine Learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort et al. // Journal of Machine Learning Research. — 2011. — Vol. 12. — P. 2825-2830.
[10] Verikas A., Bacauskiene M. Feature Selection with Neural Networks // Pattern Recogn. Lett. — 2002. — . — Vol. 23, no. 11. — P. 1323-1335. — URL: http://dx.doi.org/10.1016/S0167-8655(02)00081-8.
[11] Yacoub M., Bennani Y. HVS: A Heuristic for Variable Selection in Multilayer Artificial Neural Network Classifier. — Intelligent Engineering Systems through Artificial Neural Networks, St. Louis, 1997.
[12] Zhang Zhongheng. Variable selection with stepwise and best subset approaches // Annals of Translational Medicine.— 2016.— Vol. 4, no. 7. — URL: http://atm.amegroups.com/article/view/9706.

Скриншоты

Содержание с введением

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

Использование методов интеллектуального анализа данных для формирования маркетинговой стратегии компании
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4290 р. Год сдачи: 2017
Использование методов интеллектуального анализа данных для формирования маркетинговой стратегии компании
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4220 р. Год сдачи: 2017
ДИФФЕРЕНЦИРОВАННЫЙ ПОДХОД В ОБУЧЕНИИ СТУДЕНТОВ ПРОГРАММИРОВАНИЮ НА ОСНОВЕ ОПТИМИЗАЦИИ ИНФОРМАЦИОННОГО ВЗАИМОДЕЙСТВИЯ СУБЪЕКТОВ ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА (на примере дисциплины «Структуры и алгоритмы обработки данных»)
Диссертация , педагогика. Язык работы: Русский. Цена: 500 р. Год сдачи: 2005
ДИФФЕРЕНЦИРОВАННЫЙ ПОДХОД В ОБУЧЕНИИ СТУДЕНТОВ ПРОГРАММИРОВАНИЮ НА ОСНОВЕ ОПТИМИЗАЦИИ ИНФОРМАЦИОННОГО ВЗАИМОДЕЙСТВИЯ СУБЪЕКТОВ ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА (на примере дисциплины «Структуры и алгоритмы обработки данных»)
Диссертация , педагогика. Язык работы: Русский. Цена: 500 р. Год сдачи: 2005
Разработка системы тематической классификации веб-документов на основе алгоритмов машинного обучения
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4270 р. Год сдачи: 2016
ОБЪЯСНИМЫЙ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ДЛЯ СИСТЕМ БОЛЬШОЙ РАЗМЕРНОСТИ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4800 р. Год сдачи: 2023
Классификатор для обнаружения вредоносных файлов, основанный на методах машинного обучения
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4860 р. Год сдачи: 2016
Автоматизированное извлечение реплик, свидетельствующих об отрицательной оценке собеседника, из человеко-машинных диалогов различной тематики
Дипломные работы, ВКР, лингвистика. Язык работы: Русский. Цена: 4365 р. Год сдачи: 2018

Извлечение признаков из данных высокой размерности

Тип работы

Бакалаврская работа

Предмет

информационные системы

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

40

Подобные работы

Логин
Пароль


Тип работы:	Предмет:	Язык работы: