Тема: ЛИНЕЙНАЯ РЕГРЕССИЯ С ТОЧКОЙ СЛОМА С ПРИЛОЖЕНИЯМИ К ПРОГНОЗУ СМЕРТНОСТИ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Классическая линейная регрессия. 8
§1.1. Исходные данные и графическое представление. 8
§1.2. Оценка регрессионных параметров 11
§1.3. Вероятностный прогноз на следующий год. 14
Глава 2. Регрессия со сломом. 18
§2.1. Решение проблемы оценки регрессионных параметров и точки слома. 18 §2.2. Применение оценок к реальным данным 20
§2.3. Вероятностный прогноз на следующий год и сравнение точности прогноза с классической регрессией 23
Глава 3. Стохастическое моделирование регрессии со сломом. 27
§3.1. Алгоритм моделирования 27
§3.2. Статистический анализ данных моделирования. 27
Выводы и заключение 30
Список используемой литературы 31
Приложение.
📖 Введение
Для нахождения прогноза использовалась классическая линейная регрессия и регрессия со сломом с целью выявления эффективности второй модели с точки зрения надежности прогноза. Классическая линейная регрессия есть достаточно хорошо изученная вероятностная модель и не требует особых пояснений, в то время как модель регрессии со сломом продолжает развиваться до настоящего времени. Проведем аналитический обзор основных публикаций по статистическим проблемам линейной регрессии со сломом.
В первую очередь, отметим работу Steven A. J. [1], методы которой существенно будут использоваться в моей диссертационной работе. В статье рассматривается two-line модель (то есть регрессионная модель со сломом). В ситуации, когда точка разрыва не известна, предложен алгоритм оценки параметров. Предлагаются так же непараметрические методы оценки точки слома.
Следующие статьи так же содержат методы линейной регрессии со сломом, которые представляют интерес для моей диссертации. Например, статья [2], где рассматривается критерий Шварца (SIC) для определения точки изменения в линейных регрессионных моделях с независимыми ошибками, имеющими распределение t-Стьюдент. Метод применяется к набору данных из финансовой сферы. В статье [3] разрабатывается метод максимального правдоподобия для определения точки слома и исследуются асимптотические свойства этого метода.
Перейдем к содержанию представленной к защите диссертации. Она состоит из введения, трех глав, содержащих по 3 параграфа в главе 1,2 и 2 параграфа в главе 3, а также выводы и заключение, используемую литературу и листинг программ.
В главе 1 Предоставлены реальные медицинские данные по количеству смертельных исходов по трем группам заболеваний: онкологических, кардиологических и прочих с целью статистического анализа и нахождения вероятностного прогноза на следующий год ( §1.1). В §1.2 представлены формулы для оценки параметров регрессии, вычислена остаточная дисперсия, представлены графики линий регрессии. В §1.3 дан вероятностный прогноз на следующий год. По всем трем группам заболеваний вероятностный прогноз представлен с надежностью 0,95.
Так как классическая линейная регрессия довольно простая и понятная модель, я решила построить регрессию с точкой слома и сравнить точность прогноза. Это описано во 2 главе диссертации.
§2.1 посвящен решению проблемы оценки регрессионных параметров и точки слома. За основу был взят метод минимизации суммы квадратов невязок. Путем дифференцирования по каждому неизвестному параметру была выведена система из пяти неизвестных, с условием склейки прямых. Система была решена в среде Wolfram Mathematica, используя найденные параметры, для каждой группы заболеваний была получена точка слома. Однако, на реальных данных этот метод не давал нужных результатов, и было принято решение использовать встроенную функцию среды Wolfram Ma^mat^ для минимизации суммы квадратов невязок и нахождения точки слома. Я применила найденные оценки к реальным медицинским данным. В §2.2 построена регрессионная модель со сломом, приведены графические
иллюстрации. В§2.3 дан вероятностный прогноз с надежностью 0,95 по всем группам заболеваний. Приведено сравнение полученных прогнозов, найденных используя классическую регрессионную модель и регрессионную модель со сломом.
Глава 3 посвящена статистическому моделированию регрессии со сломом. В §3.1 я привела алгоритм моделирования. Моделирование проводилось на основе данных смертности от онкологических заболеваний, так как эти данные явились более наглядными. Я зафиксировала найденную точку слома, в каждой точке было найдено среднее, две дисперсии: до слома и после. Используя датчик случайных чисел, были найдены случайные числа из нормального распределения, с найденными параметрами. Данная процедура прогонялась 10 000 раз с целью выявления частоты встречаемости той или иной точки слома. В качестве второго эксперимента, я решила исключить из общего набора данных 4 сильно выпадающие, на мой взгляд, точки. И проделала ту же процедуру.
Все результаты экспериментов продемонстрированы в качестве гистограмм. В идеале, найденная на реальных данных точка слома должна была выпадать чаще других. Анализируя полученную гистограмму первого эксперимента, я пришла к выводу, что ожидаемого результата получено не было. Часто точка слома приходилась на начало и конец выборки. Гистограмма второго эксперимента оказалось немного более точной. (§3.3)
✅ Заключение
Было проведено статистическое моделирование регрессии со сломом. Проанализировав полученные данные моделирования, был сделан вывод, что для тех данных, которые были использованы в работе, точка слома определяется крайне ненадежно. Это можно объяснить сильным разбросом данных.
Полученные в ходе работы результаты переданы для анализа медицинскому статистику.



