ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ НЕКОТОРЫХ НЕПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ ПРОВЕРКИ ГИПОТЕЗ О РАЗРЫВНОСТИ ФУНКЦИИ РЕГРЕССИИ И ИНТЕНСИВНОСТИ ПУАССОНОВСКОГО ПРОЦЕССА
Задача о проверке непрерывности или разрывности функций в статистике имеет множество приложений как в случае распределений случайных величин, так и процессов и временных рядов. В класс рассматриваемых функций входят функция регрессии одной случайной величины на другую и плотность интенсивности пуассоновского процесса.
Задача о разрывности функции регрессии исследована в большом количестве работ, связанных с общественными науками. Впервые идея проверки гипотезы о разрывности появилась в психологии [1], но также нашла применение в исследованиях в экономической [2], образовательной [3], политической [4] и прочих сферах. В работе [5] для функции регрессии, представленной как условное математическое ожидание, получены асимптотические свойства статистики критерия проверки гипотезы о непрерывности.
Задача о проверке разрывности функции плотности интенсивности пуассоновского процесса входит в круг задач, имеющих отношение к обнаружению разладок (в англоязычной литературе change-point analysis')в процессах и временных рядах. Задачи такого рода встречаются в таких дисциплинах, как акустика [6], геномика [7], океанография [8] и т.д. Методы обнаружения сводят эту задачу к максимизации функции логарифмического правдоподобия [9, 10] или к статистической проверке гипотез [11,12]. Насколько известно автору, непараметрическая проверка рассматриваемой гипотезы о разрывности плотности интенсивности пуассоновского процесса ещё не изучалась.
В рамках данной работы предложен и изучен в плане асимптотических свойств непараметрический критерий проверки гипотезы разрывности функции регрессии, построенный на основе оценки условной медианы, а также построена и изучена его модификация на основе теории перестановочных критериев для малых объёмов выборки. Также предложен и изучен непараметрический критерий проверки гипотезы о разрывности плотности интенсивности пуассоновского процесса. В основу критериев положено ядерное оценивание регрессии и плотности интенсивности, а также используется перестановочный подход построения критериев.
Цели работы:
• Изучить литературу о свойствах ядерных оценок и построении на их основе перестановочных критериев;
• Построить непараметрический критерий проверки гипотезы о разрывности функции регрессии на основе ядерной оценки условной медианы, изучить его асимптотические свойства аналитически и построить его перестановочную модификацию;
• Сравнить в моделировании построенный критерий с известным, представленным в литературе критерием, построенным на основе оценки условного матожидания;
• Построить непараметрический критерий проверки гипотезы о разрывности плотности интенсивности пуассоновского процесса с использованием ядерной оценки разрыва плотности интенсивности и аналитически изучить его асимптотические свойства;
• Для всех построенных критериев провести моделирование для валидации теоретических результатов.
Организация работы:
Глава 1 данной работы относится к построению и изучению критерия проверки гипотезы разрывности функции регрессии, построенного на основе оценки условной медианы, и его статистики. Раздел 1.1 содержит необходимые определения и обозначения, относящиеся к этой главе. Раздел 1.2 приводит постановку задачи проверки гипотезы о разрывности функции регрессии в виде условной медианы. Раздел 1.3 посвящен построению критерия проверки этой гипотезы, для которого в этом разделе сформулировано основное утверждение о предельном распределении и дисперсии его статистики. В разделе 1.4 приведены результаты моделирования на модельных данных, подтверждающего теоретические результаты, полученные в разделе 1.3. Перестановочный вариант критерия в обычной и стьюдентизированной формах, предназначенный для меньших объемов выборки, представлен в разделе 1.5 вместе с моделированием, демонстрирующим ситуации, когда они неравносильны. Раздел 1.6 посвящен сравнению построенного критерия с известным, представленным в литературе критерием, построенном на основе ядерной оценки условного матожидания, предложенным в литературе, на модельных данных в терминах задачи о робастности их статистик. Моделирование показало, что статистика построенного критерия более устойчива к шуму в данных, чем аналогичная.
Глава 2 данной работы относится к построению и изучению критерия проверки гипотезы разрывности плотности интенсивности пуассоновского процесса и его статистики. Раздел 2.1 содержит необходимые определения, обозначения и известные результаты, относящиеся к теории пуассоновского процесса. В разделе 2.2 приведена постановка задачи проверки гипотезы о разрывности плотности интенсивности, а также вместе с построением критерия для проверки этой гипотезы представлено основное утверждение этой главы, формулирующее асимптотические свойства статистики построенного критерия, а именно предельное распределение и предельная дисперсия. В разделе 2.3 представлены результаты моделирования на модельных данных, которые подтверждают теоретические результаты раздела 2.2.
В приложении А представлены доказательства утверждений из разделов 1.3 и
2.2. Приложение Б содержит дополнительную теорию, относящуюся к моделированию, представленному в разделе 1.4. Приложение В содержит дополнительную теорию, относящуюся к главе 1.
В результате работы были получены критерии проверки гипотезы о разрывности функции условной медианы и плотности интенсивности пуассоновского процесса, а также модификация первого в двух формах, основанная на перестановках и предназначенный для меньших объемов выборки. При этом
• Для двух построенных в работе критериев аналитически изучены асимптотические свойства;
• Для них же было проведено моделирование, которое подтвердило эти свойства;
• Обычный перестановочный критерий проверки гипотезы о разрывности функции регрессии, построенный на оценке условной медианы, работает корректно при соблюдении гипотезы равенства распределений;
• Построен стьюдентизированный перестановочный критерий проверки гипотезы о разрывности функции регрессии, построенный на оценке условной медианы, который корректен даже при нарушении гипотезы равенства распределений. Моделирование это подтверждает;
• Для двух критериев проверки гипотезы о разрывности функции регрессии, основанных на условном матожидании и условной медиане, проведено сравнение на модельных данных, показавшее неустойчивость первого к шуму, в отличие от второго.
Программный код, реализованный для моделирования, размещен на ресурсе Zenodo |18].
В дальнейшем планируется построить модификацию критерия проверки разрывности плотности пуассоновского процесса с использованием подхода перестановочных критериев, а также сопоставить полученный критерий проверки разрывности плотности пуассоновского процесса с известными методами обнаружения разладок в случае пуассоновского процесса.
1. Thistlethwaite D. L., Campbell D. T. Regression-discontinuity analysis: An alternative to the ex post facto experiment //Journal of Educational Psychology. — 1960. — Vol. 51, no. 2.— P. 309-317. — Access mode:https://doi.org/10.1037/h0044319.
2. Lemieux Th., Lee D. Regression Discontinuity Design in Economics // Journal of EconomicLiterature. —2010. —06. —Vol. 48. —P. 281-355.
3. Calcagno J., Long B. The Impact of Postsecondary Remediation Using a Regression Disconti¬nuity Approach: Addressing Endogenous Sorting and Noncompliance. — 2008. — 08. — P. 47.
4. Skovron C., Titiunik R. A Practical Guide to Regression Discontinuity Designs in Political Science. — 2015.
5. Bertanha Marinho, Chung EunYi. Permutation Tests at Nonparametric Rates. — 2021. — Access mode:https://arxiv.org/abs/2102.13638.
6. An analysis of airport noise data using a non-homogeneous Poisson model with a change-point / Guarnaccia C., Quartieri J., Tepedino C., and Rodrigues E. //Applied Acoustics. — 2015.— Vol. 91.
7. Circular Binary Segmentation for the Analysis of Array-based DNA Copy Number Data / Olshen A., Venkatraman E.S., Lucito R., and Wigler M. //Biostatistics (Oxford, England). —
2004. —Vol. 5. —P. 557-72.
8. The Uncertainty of Storm Season Changes: Quantifying the Uncertainty of Autocovariance Changepoints / Nam C. F. H., Aston J. A. D., Eckley I. A., and Killick R. //Technometrics. — 2015. —Vol. 57, no. 2. —P. 194-206. — https://doi.org/10.1080/00401706.2014.902776.
9. Yao Y.C. Estimating the number of change-points via Schwarz’ criterion //Statistics &Probability Letters. — 1988. — Vol. 6, no. 3. — P. 181-189. — Access mode:https://www.sciencedirect.com/science/article/pii/0167715288901186.
10. Lavielle M. Using penalized contrasts for the change-point problem // Signal Processing. —
2005. — Vol. 85, no. 8. — P. 1501-1510. — Access mode:https://www.sciencedirect.com/science/article/pii/S0165168405000381.
11. Bai J., Perron P. Estimating and testing linear models with multiple structural changes // Econometrica. — 1995. — Vol. 66. — P. 47-78.
12. Dette H., Wied D. Detecting relevant changes in time series models // Journal of the Royal Statistical Society. Series B (Statistical Methodology). — 2016. — Vol. 78, no. 2. — P. 371¬394. — Access mode:http://www.jstor.org/stable/24775343 (online; accessed: 2022-05¬05).
13. Gramacki A. Nonparametric Kernel Density Estimation and Its Computational Aspects. — 1 ed. — Poland : Springer, 2018. — P. 176. — ISBN: 978-3-319-71687-9. — Access mode:https://doi.org/10.1007/978-3-319-71688-6.
14. Zucchini W. Applied smoothing techniques, Part 1 Kernel Density Estimation. — 2003.
15. Lehmann E. L., Romano J. P. Testing statistical hypotheses. Springer Texts in Statistics. — Third ed. — New York : Springer, 2005. — P. xiv+784. — ISBN: 0-387-98864-5.
16. Huber P.J. Robust statistics. — Wiley New York, 1981.
17. Kutoyants Yu. A. Statistical Inference for Spatial Poisson Processes. — London : Springer New York, NY, 1998. —P. 17-18, 21, 28.
18. Grigorev D. Graduation project simulation code. — 2022. — May. — Access mode:https://doi.org/10.5281/zenodo.6569651.
19. Cline D. B. H, Hart J. D. Kernel Estimation of Densities with Discontinuities or Discontinuous Derivatives //Statistics. — 1991. — Vol. 22, no. 1. — P. 69-84. — https://doi.org/10.1080/02331889108802286.
20. Schuster E. F. Incorporating support constraints into nonparametric estimators of densities // Communications in Statistics-theory and Methods. — 1985. — Vol. 14. — P. 1123-1136.
21. Silverman B. W. Density Estimation for Statistics and Data Analysis. — London : Chapman & Hall, 1986.
22. Kheireddine S, Abdallah S., Yahia D. General method of boundary correction in kernel regres¬sion estimation //Afrika Statistika. — 2015. — 12. — Vol. 10. — P. 739-750.
23. Rosenblatt M. Remarks on Some Nonparametric Estimates of a Density Function // TheAnnals of Mathematical Statistics. — 1956. — Vol. 27, no. 3. — P. 832 - 837. — Access mode: https://doi.org/10.1214/aoms/1177728190.