Введение 4
1. Описание данные 5
1.1. Реальные данные 5
2. Постановка задачи 6
2.1. Формальная постановка задачи 6
2.2. Методика постановки эксперимента 6
2.3. Используемые метрики 7
3. Описание методов извлечения признаков 8
3.1. Переборные методы 8
3.2. Генетический алгоритм для извлечения признаков 8
3.3. Основанные на похожести признаков 9
3.4. Как извлекать ранжирующие списки из моделей машинного обучения 10
3.5. DFS - deep feature selection 10
3.6. HVS 11
3.7. Методы с производными 11
3.8. Комбинация DFS и производных по входам 12
4. Эксперименты и результаты 13
4.1. Построение базовых моделей для задачи предсказания пола 13
4.2. Сравнительный анализ различных методов 14
4.3. Улучшение с помощью генетического алгоритма 16
5. Заключение 17
6. Дополнительные материалы 18
6.1. Гиперпараметры алгоритмов машинного обучения 18
Список литературы 20
В настоящее время человеческая цивилизация накопила огромный объем данных в самых различных сферах и это приводит к тому, что можно эффективно применять машинное обучение для множества задач. В некоторых задачах объекты имеют очень высокую размерность, что негативно сказывается на времени обучения. Так же, многие из признаков, описыващие объект на самом деле не являются сколько бы то ни было важными, на самом деле можно их исключить и это с высокой вероятностью положительно скажется на результате.
Итак, первый плюс извлечения признаков - ускорение сходимости алгоритмов машинного обучения, что делает их применимыми на практике.
Многие из методов не просто позволяют отобрать признаки по какому- то порогу, а отранжировать их. Определить какой вклад вносит тот или иной признак для решения задачи. Это позволяют лучше понимать понимать предметную область.
Пример: задача предсказания пола (возраста), наличия какого-либо заболевания по генной экспрессии. В подобных задачах очень много признаков (порядка 15000), в подобных задачах можно отобрать на порядок меньше признаков, на которых модели машинного обучения будут давать такие же значения по метрикам или выше, чем на оригинальном наборе и обучаться быстрее. Ученые, хорошо знающие предметную область могут посмотреть на топ признаков и понять на какие именно гены нужно изучить с биологической точки зрения).
В работе были описаны различные методы Feature Selection, каждый из них был применен на реальных данных. Был придуман и протестирован новый метод извлечения признаков, полученный комбинираванием DFS и методов, основанных на производных. Показана модификация генетического алгоритма для извлечения признаков.