Тема: О СРАВНЕНИИ МНОГОМЕРНЫХ РЕГРЕСИОННЫХ МОДЕЛЕЙ
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Предварительные сведения 5
1.1 Основные определения 5
1.2 Регрессионные модели 11
1.3 Математическая модель регрессии 12
1.4 Общая модель линейной регрессии 14
1.5 Метод максимального правдоподобия 15
1.6 Оценка метода максимального правдоподобия для классической
линейной регрессии 18
2 Многомерная линейная регрессия 21
2.1 Метод наименьших квадратов 21
2.2 Стандартизация данных 24
2.3 Гребневая (RIDGE) и LASSO регрессии 25
2.4 Гребневая (RIDGE) регрессия 26
2.5 LASSO регрессия 27
2.6 Elastic Net регрессия 28
2.7 Выбор значения X для RIDGE и LASSO. Перекрестная проверка 29
3 Практическое применение 31
Заключение 48
Список использованных источников и литературы 50
Приложение А Программа реализации методов регрессии 52
Приложение Б Таблица оценки параметров
📖 Введение
Математическая статистика - наука, изучающая методы исследования закономерностей в массовых случайных явлениях и процессах по данным, полученным из конечного числа наблюдений, с целью получения вероятностно-статистических моделей случайных явлений. Математическая статистика, как предмет математики, разрабатывает методы регистрации, описания и анализа данных наблюдений и экспериментов, чтобы осуществлять построение вероятностных моделей массовых случайных явлений.
В наши дни математическая статистика постоянно расширяет области практического применения своих методов за счет большого роста арсенала средств, которые используют исследователи. После того как в статистическую практику внедрили вычислительную технику, стало возможно использовать статистическое моделирование при решении задач в математической статистике. Особое распространение методов способствовало создание больших универсальных пакетов прикладных статистических программ, которые помогают быстро и эффективно анализировать большие массивы статистических данных.
Методы математической статистики и возможности современной компьютерной техники применяются в областях метеорологии, биологии, социологии, физики, медицины, а также при обработке результатов статистического моделирования. На данный момент методы математической статистики широко используются в решении финансовых, экономических и социальных проблем, а также в таких сферах, как климатология, криминалистика, психология, лингвистика, антропология и т.д. Без методов математической науки очень трудно разрабатывать научно-обоснованные прогнозы развития общества, например, в экономике, политике и социологии.
Описание статистическим языком применяется к тем физическим процессам, результат которых для отдельного измерения невозможно предсказать с необходимой точностью. Но в ходе большого числа повторных измерений с достаточно хорошей точностью можно предсказать некоторую величину, которая является функцией результатов измерений.
При построении моделей предусматривают вероятностную природу наблюдаемых явлений и используют математический аппарат теории вероятностей.
В математической статистике выделяют три основные задачи:
1. Оценка неизвестных параметров.
2. Проверка статистических гипотез.
3. Установление формы и степени связи между случайными величинами.
Ещё одна не менее важная задача математической статистики - это создание моделей для прогнозирования. Среди всех моделей в предсказывании данных выделим регрессионную модель, которая используется в машинном обучении для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.
✅ Заключение
Применяя теорию на практике, можно сделать следующие выводы:
1. Методы RIDGE и LASSO «стягивают» к нулю оценки коэффициентов fy в том смысле, что уменьшается норма вектора оценок при увеличении X;
2. Elastic Net служит обобщением RIDGE и LASSO, то есть он сначала «стягивает» оценки, а потом зануляет;
3. В первом рассмотренном примере Elastic Net занулил большее количество коэффициентов, чем LASSO;
4. RIDGE-регрессия не обращает в нуль коэффициенты ву даже при больших X;
5. LASSO, в отличие от МНК и RIDGE-регрессии, осуществляет выбор подмножества переменных, то есть некоторые коэффициенты ^у обращаются в нуль, что упрощает интерпретацию результатов регрессионного анализа;
6. RSS на обучающей выборке для МНК меньше, чем для RIDGE и LASSO;
7. По сравнению с RSS на обучающей выборке, использование контрольной выборки для подсчета RSS для найденных регрессионных моделей позволяет получить более адекватную оценку качества этих моделей.
При сравнивании регрессий на примере красного вина МНК работает лучше, он дает меньшую сумму квадратов ошибок. А на примере с осадками нет, так как регрессионная модель плохая из-за недостаточного количества объясняющих переменных, но была установлена корреляционная связь между осадками в северной Калифорнии и снежным покровом западной Сибири. Это служит поводом для того, чтобы включить эту переменную в регрессионную модель. Модель, в которой осадки зависят только от снежного покрова, плохая, потому что осадки зависят ещё от других факторов.
Обобщая, можно сказать, что использование RIDGE, LASSO и Elastic Net не рационально, если отсутствует мультиколлинеарность, так как метод наименьших квадратов достаточно достоверно оценивает коэффициенты регрессионной модели, а остальные регрессии усложнены вычислениями из - за параметра Л.



