Аннотация
ВВЕДЕНИЕ 3
1 Статистическая оценка математического ожидания и среднеквадратическая
ошибка (MSE) 5
1.1 Теоретические основы оценивания математического ожидания 5
1.2 Среднеквадратическая ошибка: понятие и интерпретация 6
1.3 Метод Монте-Карло в анализе точности оценивания 7
2 Цензурирование и его влияние на оценку среднего 9
2.1 Понятие и виды цензурирования 9
2.2 Методы оценки цензурированных данных 10
2.2.1 Наивная оценка 10
2.2.2 Метод Каплана-Мейера 11
2.3 Применение имитационного моделирования для оценки точности по
случайно цензурированным данным 13
3 Влияние симметрии распределения на оценку среднего 19
3.1 Симметрия функции распределения 19
3.2 Симметризация выборки при известном центре симметрии 20
3.3 Симметризация выборки при неизвестном центре симметрии 25
3.3.1 Оценка ошибки MSE для выборочной средней и наивной оценке
среднего 26
3.3.2 Оценка ошибки MSE для метода Каплана-Мейера 30
ЗАКЛЮЧЕНИЕ 39
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 41
ПРИЛОЖЕНИЕ А Сравнение ошибок MSE с разными окнами цензурирования 43
ПРИЛОЖЕНИЕ Б Программная реализация 47
Одной из важных проблем прикладной статистики является цензурирование данных, возникающее в условиях неполноты наблюдений. В медицине это могут быть пациенты, покинувшие исследование до его завершения; в технике — устройства, срок службы которых уже истёк на момент начала эксперимента; в экономике — незавершённые периоды безработицы. В подобных ситуациях традиционные методы оценки среднего, такие как выборочное среднее, дают смещённые результаты. Стандартные корректирующие методы, например на основе оценки функции распределения Каплана-Мейера, не всегда адекватно отражают особенности исходных данных и могут не обеспечивать необходимую точность.
Симметричное распределение предоставляет возможность для построения более эффективных оценок, поскольку в таких случаях среднее, медиана и мода совпадают, что значительно упрощает интерпретацию данных. Кроме того, выбросы с одинаковой вероятностью могут возникать как слева, так и справа от среднего значения. Такие методы обладают повышенной устойчивостью к цензурированию.
В предложенной работе исследовалось, как априорная информация о симметрии распределения может повысить точность оценки математического ожидания случайной величины на основе цензурированных данных. Сравниваются классические методы — оценка по полной выборке, оценка с учётом цензурирования и оценка, в которой цензурированные данные рассматриваются как полные — с их модифицированными версиями, учитывающими симметрию. Анализируются условия, при которых такие модификации позволяют снизить среднеквадратичную ошибку. Особое внимание уделяется случаям случайного цензурирования, характерным для медицинских, экономических и инженерных исследований.
Новизна работы заключается в комбинации двух идей:
• Использование симметрии для коррекции смещения, вызванного цензурированием.
• Адаптация непараметрических оценок (например Каплана- Мейера) для симметричных распределений.
Практическая значимость полученных результатов заключается в их применимости к задачам, где важно точно оценить среднее значение при наличии неполных данных. В клинических исследованиях это может повысить достоверность выводов о средней продолжительности выживания пациентов, а в технической диагностике — уточнить прогнозы времени наработки до отказа оборудования.
С методологической точки зрения работа опирается на имитационное моделирование с анализом среднеквадратичной ошибки (MSE) при разных уровнях цензурирования, непараметрические методы оценивания и исследование их асимптотических свойств.
В результате, исследование вносит вклад как в теорию статистического оценивания (обобщение методов на случай симметричных распределений), так и в практику анализа неполных данных, предлагая более точные инструменты для работы с цензурированными выборками.
В данной работе методом Монте-Карло проведено исследование влияния априорной информации о симметрии распределения на точность оценивания среднего по случайно цензурированным данным.
В рамках работы были представлены основные подходы к оценке среднего: по полной (нецензурированной) выборке, наивная оценка
(игнорирующая факт цензурирования), а также непараметрическая оценка на основе метода Каплана-Мейера. Проведён их сравнительный анализ в терминах среднеквадратической ошибки (MSE).
С помощью имитационного моделирования проанализировано влияние цензурирования на смещение и дисперсию оценок. Установлено, что наивная оценка при увеличении доли цензурирования систематически занижает среднее, тогда как оценка Каплана-Мейера даёт более точные результаты, особенно при невысоких уровнях цензурирования (до 70%).
Особое внимание уделено симметризации данных. Реализованы два подхода: симметрия относительно известного центра (например, а=0,5) и симметрия относительно неизвестного центра (медианы). Были получены следующие результаты:
Использование дополнительной информации о симметрии распределения с известным центром позволяет существенно снизить MSE, особенно при малых и средних уровнях цензурирования, а также при небольшом объёме выборки. Однако при увеличении объёма выборки или доли цензурирования эффект от симметризации ослабевает, и преимущество использования априорной информации становится менее значимым. Всё это касается исключительно оценки Каплана-Мейера.
Использование дополнительной информации о симметрии распределения с неизвестным центром, в данном случае медианы, для выборочной средней и наивной оценкой среднего ошибка MSE во всех случаях приводит к ухудшению качества оценки при любом из двух рассмотренных способов оценивания центра симметрии.
Для метода Каплана-Мейера симметризация относительно медианы может быть эффективной стратегией при умеренном цензурировании — в этом диапазоне она действительно улучшает точность оценки среднего. Однако при очень высокой степени цензуры её применение уже нецелесообразно. На практике это означает, что при использовании симметризованных оценок необходимо контролировать устойчивость медианы как центра отражения.
Оценка самой медианы по алгоритму Каплана-Мейера как варианта оценки среднего с учётом симметрии демонстрирует наихудшие показатели ошибки на всём интервале цензурирования и не может рассматриваться в качестве надёжной альтернативы оценке математического ожидания.
Работа основана на многократном имитационном моделировании с применением языка программирования C++. Моделировались равномерные распределения с различными уровнями правого цензурирования. Результаты представлены в виде графиков и таблиц, отражающих поведение ошибок оценки при варьировании параметров моделирования.
Практическая значимость работы заключается в возможности корректировать классические оценки среднего в условиях неполных данных за счёт использования информации о симметрии. Полученные результаты могут применяться в медицине (анализ выживаемости), инженерии (оценка надёжности) и экономике (обработка усечённых данных в панельных выборках).
1. Боровков А.А. Математическая статистика / А.А. Боровков. - Новосибирск : Наука. Изд-во Института математики, 1997. - 772 с.
2. Дмитриев Ю. Г. Статистическое оценивание распределений вероятностей с использованием дополнительной информации / Ю. Г. Дмитриев, Ю. К. Устинов ; под ред. В. В. Конева ; Том. гос. ун-т им. В. В. Куйбышева. - Томск : Издательство Томского университета, 1988. URL: http://vital.lib.tsu.rU/vital/access/manager/Repository/vtls:000068676
3. Зенкова Ж.Н., Краковецкая И.В. Моделирование по неполным данным в логистике и маркетинге/ Логистические системы в глобальной экономике: материалы Междунар. науч.-практ. конф. (14-15 марта 2013 г., Красноярск): в 2 ч. Ч. 1. Научно-исслед. сектор / Сиб. гос. аэрокосмич. ун -т. - Красноярск, 2013. - C. 98-105.
4. Зенкова Ж. Н., Краковецкая И. В. Непараметрическая оценка Тёрнбулла для интервально-цензурированных данных в маркетинговом исследовании спроса на биоэнергетические напитки / Ж. Н. Зенкова, И. В. Краковецкая // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - Томск, 2013. - № 3 (24). - С. 64-69.
5. Зенкова Ж. Н., Макеева О. Б. Применение методов обработки цензурированных данных при анализе оборачиваемости / Ж. Н. Зенкова, О. Б. Макеева // Вестник науки Казахского агротехнического университета им. С. Сейфуллина. - Астана, 2014. - № 3 (82). - С. 21-30.
6. Ивченко Г. И., Медведев Ю. И. Математическая статистика: учеб. пособие для вузов / Г. И. Ивченко, Ю. И. Медведев. - М. : Радио и связь, 1992. - 304 с.
7. Ивченко Г. И., Солдаткина М. В. Статистические задачи для случайных подстановок с цензурированными данными / Г. И. Ивченко, М. В. Солдаткина. - СПб. : Питер, 2012. - 104 с.
8. Кобзарь А. И. Прикладная математическая статистика / А. И. Кобзарь. - М. : Физматлит, 2006. - 238 с.
9. Анализ надёжности технических систем по цензурированным выборкам / В. М. Скрипник [и др.]. - М. : Радио и связь, 1988. - 184 с.
10. Тарасенко Ф. П. Непараметрическая статистика / Ф. П. Тарасенко. - Томск : Изд-во ТГУ, 1976. - 239 с.