Тема: Модели машинного обучения для задач классификации, кластеризации и регрессии
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Простейшие модели 6
ГЛАВА I. КЛАССИФИКАЦИЯ 10
1.1. Описание набора данных для классификации 10
1.2. Дерево принятия решений 12
1.2.1. Энтропия 12
1.2.2. Эксперименты 13
1.3. Случайный лес 16
1.3.1. Бутстрэп 17
1.3.2. Бэггинг 17
1.3.3. Случайный лес 18
1.3.4. Эксперименты 19
1.3.5. Выводы 19
1.4. По ближайшему соседу 20
1.4.1. По ближайшему соседу в scikit-learn 21
1.4.2. Эксперименты 21
1.4.3. Выводы 23
1.5. Логистическая регрессия 23
1.5.1. Регуляризация 25
1.5.2. Эксперименты 26
ГЛАВА II. РЕГРЕССИЯ 27
2.1. Описание данных для задачи регрессии 27
2.2. Линейная регрессия 28
2.2.1. Одномерная регрессия 28
2.2.2. Многомерная регрессия 30
2.2.3. Эластичная регрессия 31
2.3. Дерево принятия решений для задачи регрессии 32
2.4. Случайный лес для задачи регрессии 34
ГЛАВА III. КЛАСТЕРИЗАЦИЯ 35
3.1. Алгоритм k-means 35
3.1.1. PCA-based 36
3.1.2. k-means++ 36
3.1.3. Random 37
3.1.4. Испытания 37
3.1.5. Вывод 39
3.2. Алгоритм affinity propagation 40
3.3. Алгоритм спектральной кластеризации 41
3.4. Агломеративная кластеризация 42
3.5. Выводы 43
Используемые технологии 43
Заключение 44
Список используемых источников 45
Листинг 46
📖 Введение
Первые решения, которые можно отнести к машинному обучению, появились уже в середине XX-го века. Тогда данная тема очень популяризировалась в научных кругах, а также в прессе, что вызывало большой ажиотаж и грезы об автоматизированном будущем. Постоянно появлялись новые алгоритмы и улучшались старые. Многие алгоритмы были описаны только теоретически и тогда не было возможности их проверить на больших данных. Но уже создавались и работающие реализации обучающейся программы для игры в шашки, также, были простейшие программы для ведения диалогов, которые отвечали на вопросы пользователя. Данные программы стали прародителями нынешних программ, которые обыгрывают чемпионов мира в различные настольные игры, и программ, которые обеспечивают голосовое взаимодействие с компьютером. Появилась первая в мире экспертная система, которая путем взаимодействия компьютера с пользователем методом “вопрос-ответ”, могла дать довольно точный диагноз пациенту.
Однако, в 70-ых годах вышла в свет статья известного ученого, в которой описывались проблемы данной области и говорилось, что реализация таких вещей почти невозможна. Все это привело к длительному застою в данной области. Идея самообучающихся программ была отложена и все занимались только созданием программ, рассчитанных на определенные действия.
По прошествии этого времени, с развитием вычислительных мощностей и компьютерных наук, информатика начала пересекаться со статистикой. Рос объем данных, и эти данные нужно было обрабатывать. Алгоритмы машинного обучения, появившиеся уже давно, начали применять в различных сферах. Это были и финансовые рынки, где их начали применять для предсказания роста/падения, и медицина, для установления диагноза, и банковская система, для задач кредитного скоринга. Данные алгоритмы очень помогли автоматизировать многие вычисления. С теми задачами, которыми раньше занимались множество опытных математиков, справлялась всего одна хорошо обученная программа.
Актуальность данной дипломной работы заключается в том, что, в последние несколько лет, машинное обучение довольно быстро уходит в массы. Сейчас каждый пользователь сети интернет имеет доступ к большому количеству данных, а вычислительная производительность домашнего компьютера уже достаточна, чтобы эти данные обработать. Но, для того, чтобы самостоятельно использовать данные алгоритмы, необходимо хорошо с ними разобраться, затем подобрать наилучший метод для вашей задачи, а потом настроить модель на получение наилучшего качества. Именно этому посвящена данная работа.
Постановка задачи
Постановка задачи - анализ и сравнение моделей машинного обучения для задач классификации, кластеризации и регрессии. Для этого необходимо:
^ Ознакомиться с различными методами
^ Рассмотреть различные инструменты для работы с алгоритмами
^ Выбрать критерии оценки качества работы алгоритмов
^ Найти наборы данных для проведения тестов
^ Применить каждый алгоритм к набору данных
^ Произвести сравнение алгоритмов
^ Сделать выводы на основе произведенной работы
✅ Заключение
Результаты работы превзошли ожидание и, даже на не самых простых наборах данных, давали хорошие результаты. И, хотя, на таких объемах данных невозможно построить модель с максимальной точностью, данные модели неплохо подходят для простых задач в небольших проектах.
В ходе работы выяснились слабые и сильные стороны различных алгоритмов. Была проведена оптимизация каждого из них.
В работе стали очевидны проблемы линейных моделей, проблемы переобучения и недообучения, а также проблемы интерпретации моделей. Для оценки методов кластеризации был использован набор данных для классификации, так как такие методы сами находят по каким признакам разделить данные, мы смогли увидеть насколько реальные классы отличаются от собранных кластеров на этом наборе данных.
В данной развивающейся теме еще не было работ, которые бы рассматривали данные методы машинного обучения и сравнивали их работу на одном и том же наборе данных. Не было работы, в которой бы рассматривались общие критерии оценки качества для моделей из разных задач. Также, в данной работе рассматривалась параметризация каждой модели и настройка ее для получения наилучшего качества.
Каждый специалист, ознакомившийся с работой, сможет найти применение этим алгоритмам в своих задачах.
Мое мнение, что данная область сейчас будет развиваться еще быстрее. А такие алгоритмы будут использоваться повсеместно. Все, прежде хранимые и необработанные поступающие данные, будут обрабатываться и на их основе будут происходить различные улучшения.



