Тип работы:
Предмет:
Язык работы:


О СРАВНЕНИИ МНОГОМЕРНЫХ РЕГРЕСИОННЫХ МОДЕЛЕЙ

Работа №189007

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы60
Год сдачи2021
Стоимость4200 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
14
Не подходит работа?

Узнай цену на написание


Введение 3
1 Предварительные сведения 5
1.1 Основные определения 5
1.2 Регрессионные модели 11
1.3 Математическая модель регрессии 12
1.4 Общая модель линейной регрессии 14
1.5 Метод максимального правдоподобия 15
1.6 Оценка метода максимального правдоподобия для классической
линейной регрессии 18
2 Многомерная линейная регрессия 21
2.1 Метод наименьших квадратов 21
2.2 Стандартизация данных 24
2.3 Гребневая (RIDGE) и LASSO регрессии 25
2.4 Гребневая (RIDGE) регрессия 26
2.5 LASSO регрессия 27
2.6 Elastic Net регрессия 28
2.7 Выбор значения X для RIDGE и LASSO. Перекрестная проверка 29
3 Практическое применение 31
Заключение 48
Список использованных источников и литературы 50
Приложение А Программа реализации методов регрессии 52
Приложение Б Таблица оценки параметров


Значение математической статистики в жизни человека настолько велико, что люди, чаще всего даже не задумываются и не осознают, что используют элементы статистики не только в своей производственной научной деятельности, но и в быту. В трудовой деятельности, на отдыхе, совершая покупки, знакомясь с другими людьми, мы пользуемся определенной системой сведений и фактов, анализируем их, и делаем выводы. Именно поэтому можно сказать, что каждому человеку присущи элементы статистического мышления.
Математическая статистика - наука, изучающая методы исследования закономерностей в массовых случайных явлениях и процессах по данным, полученным из конечного числа наблюдений, с целью получения вероятностно-статистических моделей случайных явлений. Математическая статистика, как предмет математики, разрабатывает методы регистрации, описания и анализа данных наблюдений и экспериментов, чтобы осуществлять построение вероятностных моделей массовых случайных явлений.
В наши дни математическая статистика постоянно расширяет области практического применения своих методов за счет большого роста арсенала средств, которые используют исследователи. После того как в статистическую практику внедрили вычислительную технику, стало возможно использовать статистическое моделирование при решении задач в математической статистике. Особое распространение методов способствовало создание больших универсальных пакетов прикладных статистических программ, которые помогают быстро и эффективно анализировать большие массивы статистических данных.
Методы математической статистики и возможности современной компьютерной техники применяются в областях метеорологии, биологии, социологии, физики, медицины, а также при обработке результатов статистического моделирования. На данный момент методы математической статистики широко используются в решении финансовых, экономических и социальных проблем, а также в таких сферах, как климатология, криминалистика, психология, лингвистика, антропология и т.д. Без методов математической науки очень трудно разрабатывать научно-обоснованные прогнозы развития общества, например, в экономике, политике и социологии.
Описание статистическим языком применяется к тем физическим процессам, результат которых для отдельного измерения невозможно предсказать с необходимой точностью. Но в ходе большого числа повторных измерений с достаточно хорошей точностью можно предсказать некоторую величину, которая является функцией результатов измерений.
При построении моделей предусматривают вероятностную природу наблюдаемых явлений и используют математический аппарат теории вероятностей.
В математической статистике выделяют три основные задачи:
1. Оценка неизвестных параметров.
2. Проверка статистических гипотез.
3. Установление формы и степени связи между случайными величинами.
Ещё одна не менее важная задача математической статистики - это создание моделей для прогнозирования. Среди всех моделей в предсказывании данных выделим регрессионную модель, которая используется в машинном обучении для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе были рассмотрены четыре вида регрессии: метод наименьших квадратов, RIDGE, LASSO и Elastic Net. Преимущества RIDGE и LASSO над МНК в том, что эти два метода можно использовать если матрица ХТХ «близка» к вырожденной, где Х — матрица объясняющих переменных (предикторов). RIDGE - регрессия проводит регуляризацию параметров, а LASSO зануляет часть параметров, что позволяет понять какие параметры важны для модели, а какие нет. Elastic Net это та регрессия, которая обладает преимуществами обоих методов: она сохраняет группирующий эффект регрессии RIDGE и выбирает признаки как часть процедуры обучения, например, LASSO.
Применяя теорию на практике, можно сделать следующие выводы:
1. Методы RIDGE и LASSO «стягивают» к нулю оценки коэффициентов fy в том смысле, что уменьшается норма вектора оценок при увеличении X;
2. Elastic Net служит обобщением RIDGE и LASSO, то есть он сначала «стягивает» оценки, а потом зануляет;
3. В первом рассмотренном примере Elastic Net занулил большее количество коэффициентов, чем LASSO;
4. RIDGE-регрессия не обращает в нуль коэффициенты ву даже при больших X;
5. LASSO, в отличие от МНК и RIDGE-регрессии, осуществляет выбор подмножества переменных, то есть некоторые коэффициенты ^у обращаются в нуль, что упрощает интерпретацию результатов регрессионного анализа;
6. RSS на обучающей выборке для МНК меньше, чем для RIDGE и LASSO;
7. По сравнению с RSS на обучающей выборке, использование контрольной выборки для подсчета RSS для найденных регрессионных моделей позволяет получить более адекватную оценку качества этих моделей.
При сравнивании регрессий на примере красного вина МНК работает лучше, он дает меньшую сумму квадратов ошибок. А на примере с осадками нет, так как регрессионная модель плохая из-за недостаточного количества объясняющих переменных, но была установлена корреляционная связь между осадками в северной Калифорнии и снежным покровом западной Сибири. Это служит поводом для того, чтобы включить эту переменную в регрессионную модель. Модель, в которой осадки зависят только от снежного покрова, плохая, потому что осадки зависят ещё от других факторов.
Обобщая, можно сказать, что использование RIDGE, LASSO и Elastic Net не рационально, если отсутствует мультиколлинеарность, так как метод наименьших квадратов достаточно достоверно оценивает коэффициенты регрессионной модели, а остальные регрессии усложнены вычислениями из - за параметра Л.



1. An Introduction to Statistical Learning with Applications in R // G. James, D. Witten, T. Hastie, R. Tibshirani. — [S. l.]: Springer, 2013.
2. Cortez, P. UCI Machine Learning Repository — Wine Quality Data Set [Electronic resource]. — 2009. — URL: http://archive.ics.uci.edu/ml/datasets/Wine+Quality.
3. Efron, B. Computer Age Statistical Inference: Algorithms, Evidence and Data Science // B. Efron, T. Hastie. — [S. l.]: Institute of Mathematical Statistics Monographs, 2016.
4. Hastie, T. Statistical Learning with Sparsity. The Lasso and Generalizations // T. Hastie, R. Tibshirani, M. Wainwright. — [S. l.]: Chapman & Hall, 2015.
5. Hastie, T. The elements of statistical learning: Data Mining, Inference, and Prediction // T. Hastie, R. Tibshirani, J. Friedman. — 2nd edition. — [S. l.]: Springer, 2009.
6. Kutner, M. H. Applied Linear Regression Models // M. H. Kutner, C. J. Nachtsheim, J. Neter. — 4th edition. — [S. l.]: McGraw-Hill Irwin, 2004.
7. Lichman, M. UCI Machine Learning Repository. — 2013. — URL:
http://archive.ics.uci.edu/ml.
8. Modeling Wine Preferences by Data Mining from Physicochemical Properties [Text] / P. Cortez, A. Cerdeira, F. Almeida [et al.] // Decision Support Systems. — 2009. — Vol. 47, no. 4. — P. 547-553.
9. Nature Portfolio. - L. : Nature Publishing Group, 1869-2021.
10. Yan, X. Regression Analysis: Theory and Computing // X. Yan, X. G. Su. — [S. l.]: World Scientific Publishing Co. Pte. Ltd., 2009.
11. Боровков А.А. Математическая статистика. - Учебник. - М.: Наука, 1984. - 472 с.
12. Демин С.Е., Демина Е.Л. Математическая статистика: учеб. - метод. пособие. М-во образования и науки РФ; ФГАУ ВО «УрФУ им. первого Президента России Б.Н. Ельцина», Нижнетагил. технол.ин-т (фил). Нижний Тагил: НТИ (филиал) УрФУ, 2016. - 284 с.
13. Ивченко Г.И., Медведев Ю.И. Математическая статистика. - М.:Наука, 1992.-305 с.
14. Трофимов Е.А. Теория вероятностей и математическая статистика: учеб. пособие; М-во образования и науки РФ, Урал, федер.ун-т. - Екатеринбург: Изд-во Урал. ун-та, 2018. - 160 с.
15. Множественная регрессия, множественная линейная регрессия. [Электронный ресурс] // studme.org: Учебные материалы для студентов, 2013¬2020. URL:https://studme.org/72639/ekonomika/mnozhestvennaya regressiya /
16. Феллер В. Введение в теорию вероятностей и ее приложения. М.: Мир, Т.2, 1984. - 499 с.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ