Тип работы:
Предмет:
Язык работы:


ПРИМЕНЕНИЕ ВЕРОЯТНОСТНЫХ МЕТОДОВ ДЛЯ ПОСТРОЕНИЯ И АНАЛИЗА МОДЕЛЕЙ БОЛЬШИХ ДАННЫХ

Работа №189350

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы47
Год сдачи2022
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
14
Не подходит работа?

Узнай цену на написание


Аннотация
Введение 3
1 Основные термины и сведения из регрессионного анализа 5
2 Описание методов Ridge, Lasso и DS selector 9
3 Численное сравнение методов 16
Заключение 30
Список использованных источников 32
Приложение А


Математическая статистика - наука, изучающая методы исследования закономерностей в массовых случайных явлениях и процессах по данным, полученным из конечного числа наблюдений, с целью построения вероятностно-статистических моделей. В наши дни математическая статистика постоянно расширяет области практического применения своих методов за счет большого роста арсенала средств, которые используют исследователи.
Важным инструментом анализа данных являются математические модели, представляющие собой совокупность математических функций или уравнений, которые описывают определенные качества изучаемого реального явления или процесса. Математические модели позволяют описывать существующие связи между процессами и явлениями в различных областях, выстраивать прогнозы и находить оптимальные решения для некоторых задач.
Одной из распространенных задач, с которыми исследователи сталкиваются на практике, является установление и количественная оценка связи между переменными. Для решения подобного рода проблем используются методы регрессионного анализа. Цель построения регрессионных моделей заключается в определении наиболее важных факторов, которые влияют на интересующую нас переменную.
Регрессионный анализ, как и вся наука в целом, не стоит на месте и развивается. С каждым годом анализ и обработка данных становятся всё более востребованы во многих отраслях. Круг практических задач в этой области расширяется, увеличиваются объемы данных и усложняется их структура. Вместе с этим регулярно разрабатываются новые программные продукты, позволяющие быстро и качественно проводить анализ и строить модели.
В ходе регрессионного анализа довольно часто возникает проблема существования зависимости между рассматриваемыми факторами, которая накладывает некоторые ограничения на применение методов построения моделей. Еще весьма распространённой ситуацией при исследовании процессов в области медицины, биологии или физики является наличие большого числа факторов, существенно превышающего объем наблюдений, что приводит к моделям высоких размерностей или, так называемым, моделям больших. Каждая проблема требует индивидуальный подход, применение новых, более прогрессивных методов.
Целью данной работы является изучение и применение вероятностных методов построения и анализа больших данных.
Для достижения поставленной цели были решены следующие задачи:
1) изучена литература по исследуемой тематике;
2) проведен поиск необходимых для работы данных;
3) изучены методы регрессионного анализа;
4) применительно к практическим данным построены различные регрессионные модели;
5) проведен сравнительный анализ и интерпретация результатов.
Работа состоит из введения, семи разделов, заключения, списка литературы и приложения. Во введении раскрывается актуальность темы работы, ее цель и задачи. Первый раздел посвящён основным терминам, используемым в работе, и краткому описанию регрессионных методов. Во втором разделе проводится описание исследуемых методов и их особенностей. В третьем разделе приводятся анализ и результаты численного моделирования с применением исследуемых методов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе были изучены следующие методы построения регрессионных моделей: OLS, Ridge, Lasso, Dantzig selector. Метод наименьших квадратов является самым простым методом построения регрессионных моделей, но в некоторых ситуациях он может приводить к ложным результатам. Так как в имеющихся данных была обнаружена мультиколлинеарность, был резон применить Ridge, Lasso, Dantzig selector для решения данной проблемы и сравнить полученные результаты. ВО всех случаях остатки не удовлетворяют теореме Гаусса -Маркова, а именно отсутствие нормальности в остатках. Как уже оговаривалось ранее, чем меньшее значение лямбда мы берем для Ridge, Lasso и DS, тем больше их модели будут походить на МНК-модель, что можно было явно видеть на примере Lasso^m.
Хоть в данных и нет доминирующего числа факторов, но при этом Lasso и DS всё равно зануляют некоторые коэффициенты, что говорит о работоспособности данных методов даже с такими «неудобными» для них данными.
Однако, несмотря на сильную корреляцию факторов, применение регуляризующих методов не дало положительного результата. Модели, построенные с помощью Ridge, Lasso и DS имеют больший квадрат остатков. Данные методы должны были хотя бы делать модель более значимой, но в итоге мы всё равно не можем с точностью говорить об этих методах, ведь Теорема Гаусса-Маркова не выполняется.



1. Дрейпер Н. Прикладной регрессионный анализ// Н.Дрейпер, Г.Смит. - М.: Финансы и статистика, 1987 - 349 с.
2. Hoerl A. E. Ridge regression: Biased estimation for nonorthogonal problems// Hoerl A. E. and Kennard R. - Technometrics, - 1970, - 12(1), P.55-67
3. van Wieringen W.N. Lecture Notes on Ridge Regression// ArXiv e-prints, - 2015, - P.129
4. Zhao P., Yu B. On model selection consistency of Lasso// J. Machine Learning Research, - 2006, - 7(2), 2541-2563
5. Tibshirani R. Regression shrinkage and selection via the lasso// J. Royal Statist. Soc., Ser. B. - 1996, - 58(1), P.267-288.
6. Candes E. J. The DS selector: Statistical estimation when p is much larger than n// Candes E. J. and Tao T. - The Annals of Statistics. - 2007, - 35(6), 2313-2351. P.41.
7. Zheng S., Liu W. An experimental comparison of gene selection by Lasso and DS selector for cancer classification// Computers in Biology and Medicine. - 2011, - 1033-1040, - P.41.
8. Efron B. Discussion: The DS selector: Statistical estimation whenp is much larger than n //B. Efron, T. Hastie, R. Tibshirani - The Annals of Statistics, 2007. - 35(6). 2358-2364. P.7.
9. Bickel P. Simultaneous analysis of Lasso and DS selector/ P.J. Bickel, Y. Ritov, A. Tsybakov - The Annals of Statistics, 2009. - 37(4). 1705-1732. P.28.
10. Статья на Kaggle https://www.kaggle.com/code/ragnisah/eda-abalone-age- prediction/notebook.



Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ