Тип работы:
Предмет:
Язык работы:


ПОСТРОЕНИЕ ДОВЕРИТЕЛЬНЫХ УТВЕРЖДЕНИЙ О ПАРАМЕТРАХ ЛОГИСТИЧЕСКОЙ МОДЕЛИ С МНОГОУРОВНЕВЫМ ОТКЛИКОМ

Работа №77858

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы28
Год сдачи2017
Стоимость4955 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
24
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Описание модели и метода оценивания 7
1.1. Логистическая регрессия. Общие понятия 7
1.2. Оценка максимального правдоподобия 9
1.3. Асимптотическое распределение оценок максимального
правдоподобия 10
Глава 2. Анализ статистических характеристик оценок максимального правдоподобия методом стохастического моделирования 10
2.1. О методе стохастического моделирования свойств процесса 10
2.2. Программирование бинарной модели в «Wolfram Mathematica».... 11
2.3. Асимптотическая нормальность бинарной модели 12
Глава 3. Многоуровневая логистическая регрессия с многомерным предикторным параметром 13
3.1. Реализация модели в среде «Wolfram Mathematica» 13
3.2. Дельта-метод 14
3.3. Апробация модели на медицинских данных 15
Заключение 21
Список литературы 23
Листинг

Логистическая регрессия - статистический инструмент для решения задач классификации. В классической статистике её применяют для прогнозирования вероятности возникновения некоторого события по значениям нескольких наблюдений. Метод логистической регрессии часто используют в решении задач классификации, распознавания образов, анализа текстов и многих других. В последние годы получила распространение в экономике, медицине, маркетинге, клинических исследованиях.
Общее назначение логистической регрессии - анализ связи между регрессором X (независимая переменная) и откликом Y (зависимая переменная). В случае, когда зависимая переменная Y принимает всего два значения, строится бинарная модель. Другими словами, бинарная модель логистической регрессии оценивает вероятность наступления события или попадания в определенную группу для конкретного случая. Например, нам необходимо оценить вероятность возврата кредита заемщика по имеющимся данным из анкеты и прочим документам. Для этого собираются данные об уже выданных кредитах и результатах возврата. Затем строится модель, в которой неизвестные коэффициенты вычисляются на основе имеющихся данных.
Бинарная модель часто используется на практике, но не способна решать довольно широкий спектр задач, в которых число классов больше двух. В данной работе мы рассмотрим обобщённую модель с многоуровневым откликом, когда Y принимает больше двух значений. В разделе 1.1 подробнее раскрывается понятие модели, и даются необходимые определения.
Для исследования параметров логистической модели и дальнейшего построения её оценок, в данной работе будут рассматриваться следующие ситуации:
- Бинарная модель с одним предиктором. Построение оценок параметров, и настройка модели на случайной выборке, имеющей равномерное распределение.
- Многоуровневая логистическая регрессия с несколькими предикторами. Построение оценок параметров, апробация модели на реальных данных, построение доверительных интервалов оценок вероятностей попадания в целевую группу.
Как известно, логистическая регрессия зависит от некоторых неизвестных параметров, которые оцениваются методом максимального правдоподобия. Суть метода заключается в выборе наиболее «разумной», с точки зрения поведения человека, вероятности наступления события в условиях неопределенности.
Для оценки неизвестных параметров строится функция правдоподобия, которая затем максимизируется. Для упрощения вычислений можно максимизировать не саму функцию, а её логарифм. В разделе 1.2 подробно приводятся все необходимые выкладки применимо к логистической регрессии.
Для максимизации функции необходимо использовать один из градиентных численных метода. Чаще всего применяют метод Ньютона- Рафсона. Выбор метода обосновывается выполнением всех необходимых условий для его применения, и небольшим количеством итераций необходимых для нахождения максимума функции.
После применения численного метода получим оценки неизвестных коэффициентов логистической регрессии. Из теории известно, что распределение данных оценок асимптотически нормально. Построение оценок и асимптотическое распределение подробнее рассматривается в разделе 1.3.
Построенные модели и численные методы реализованы в программном виде. Для этого был выбран статистический пакет «Wolfram Mathematica». Данный пакет выбирался исходя из следующих факторов: набор необходимых нам функций, легкость в изучении, скорость работы и адаптируемость к высоконагруженным вычислениям. В этом пакете уже имеется набор функций, способные произвести необходимые нам вычисления, например, максимизация. Но данные функции имеют мало параметризированную настройку и низкую скорость работы, в сравнении с реализованным методом Ньютона-Рафсона. Что впоследствии подтвердилось предварительными экспериментами, рассмотрение которых выходит за рамки данной работы. В разделах 2.2 и 3.1 подробнее раскрывается реализация моделей в статистическом пакете «Wolfram Mathematica».
В написанной программе реализовано две модели: бинарная и многоуровневая, и проведены их исследования с помощью метода стохастического моделирования.
Результаты исследования бинарной модели полностью подтверждают теоретическое утверждение об асимптотическом распределении оценок максимального правдоподобия. Проведено 105 экспериментов для разных объемов выборки. В результате получено рекомендуемый объем, при котором достигается асимптотическая нормальность оценок максимального правдоподобия, равный 40 наблюдениям.
В результате реализации многоуровневой логистической регрессии получилась модель, способная самостоятельно оценивать входящие данные на количество независимых переменных и количество классов, и строить соответствующие уравнения. На этой модели исследовался дельта-метод, с помощью которого были построены доверительные интервалы для оценок вероятностей попадания в целевую группу.
От специалистов перинатального центра получены результаты наблюдений за 150 пациентами. Данные содержат информацию о химическом составе крови пациентов, анамнез, сроке родов и гестозе во время беременности. На этих данных была апробирована многоуровневая модель.
Рассматривалось два случая: прогнозирование возникновения гестоза по анализу крови и вероятность родов в один из заданных периодов.
Объем «тренировочной» выборки был равен 100 наблюдений случайно выбранных из общей совокупности, объем выборки «тестирования» соответственно 50 оставшихся наблюдений.
В результате прогнозирования гестоза модель ошиблась всего 4 раза из 50. Все расчеты и подробные результаты рассматриваются в разделе 3.3.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе были построены и исследованы две модели: бинарная логистическая регрессия с одним предиктором, и многоуровневая модель с многомерным предикторным параметром.
В бинарной модели рассматривалась зависимость поведения оценок параметров распределения оценок коэффициентов логистической регрессии от объема выборки.
В качестве независимых переменных были рассмотрены выборка равномерного распределения на отрезке [-1,1], которая задается случайным образом.
Был изучен алгоритм построения оценок - метод максимального правдоподобия. Асимптотическое распределение оценок оказалось нормальным, что полностью соответствует теории.
Для максимизации функции правдоподобия был изучено численный метод Ньютона-Рафсона для многомерного случая.
Все построенные модели и методы реализованы в среде «Wolfram Mathematica», и исследованы методом стохастического моделирования.
Был вычислен объем выборки наблюдений (n=40), при котором достигается асимптотическая нормальность распределения оценок максимального правдоподобия.
С помощью дельта-метода построены доверительные интервалы для оценок вероятностей попадания в целевую группу у многомерной модели.
Программа апробирована на реальных медицинских данных. По предварительным результатам можно сделать вывод о работоспособности модели и её практической применимости.



1. Scott A. Czepiel, Maximum Likelihood Estimation of Logistic Regression Models: Theory and Implementation.
2. А. Ю. Хапланов, Асимптотическая нормальность оценки параметров многомерной логистической регрессии, Информ. и её примен., 2013, том 7, выпуск 2, 69-74.
3. Anderson J. A. Separate sample logistic regression //Biometrika, 1972. Vol. 59. No. 1. P. 19-35.
4. Hossain S., Ejaz Ahmed S., Howlader H. Model selection and parameter estimation of a multinomial logistic regression model // J. Stat. Comput. Simulation, 2012. P. 1-15.
5. Multinomial logistic regression//Википедия - свободная энциклопедия [Электронный ресурс]. -
https: //en. wikipedia. org/wiki/Multinomial_logistic_regression. - (дата обращения: 14.09.2016).
6. Ordinal regression//Википедия - свободная энциклопедия [Электронный ресурс]. -https://en.wikipedia.org/wiki/Multinomial_logistic_regression. - (дата обращения: 14.09.2016).


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ