Тема: Извлечение признаков из данных высокой размерности
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Описание данные 5
1.1. Реальные данные 5
2. Постановка задачи 6
2.1. Формальная постановка задачи 6
2.2. Методика постановки эксперимента 6
2.3. Используемые метрики 7
3. Описание методов извлечения признаков 8
3.1. Переборные методы 8
3.2. Генетический алгоритм для извлечения признаков 8
3.3. Основанные на похожести признаков 9
3.4. Как извлекать ранжирующие списки из моделей машинного обучения 10
3.5. DFS - deep feature selection 10
3.6. HVS 11
3.7. Методы с производными 11
3.8. Комбинация DFS и производных по входам 12
4. Эксперименты и результаты 13
4.1. Построение базовых моделей для задачи предсказания пола 13
4.2. Сравнительный анализ различных методов 14
4.3. Улучшение с помощью генетического алгоритма 16
5. Заключение 17
6. Дополнительные материалы 18
6.1. Гиперпараметры алгоритмов машинного обучения 18
Список литературы 20
📖 Введение
Итак, первый плюс извлечения признаков - ускорение сходимости алгоритмов машинного обучения, что делает их применимыми на практике.
Многие из методов не просто позволяют отобрать признаки по какому- то порогу, а отранжировать их. Определить какой вклад вносит тот или иной признак для решения задачи. Это позволяют лучше понимать понимать предметную область.
Пример: задача предсказания пола (возраста), наличия какого-либо заболевания по генной экспрессии. В подобных задачах очень много признаков (порядка 15000), в подобных задачах можно отобрать на порядок меньше признаков, на которых модели машинного обучения будут давать такие же значения по метрикам или выше, чем на оригинальном наборе и обучаться быстрее. Ученые, хорошо знающие предметную область могут посмотреть на топ признаков и понять на какие именно гены нужно изучить с биологической точки зрения).





