Введение 5
Глава 1. Основные результаты 6
1.1. Теоретические результаты 6
1.1.1. Модель с гауссовским шумом 6
1.1.2. Пуассоновский случайный процесс 7
1.2. Результаты моделирования 9
1.3. Гауссовский шум 10
1.3.1. Обнаружение и оценка моментов разладки 10
1.4. Пуассоновский процесс 21
1.4.1. Обнаружение и оценка моментов разладки 21
1.5. Анализ времени работы алгоритмов 28
Глава 2. Методы обнаружения разладки 29
2.1. Исчерпывающий поиск (exhaustive search) 29
2.2. Пошаговый отбор (stepwise selection) 30
2.3. Алгоритм отсеивания и ранжирования (SaRa) 30
2.4. Алгоритм одновременного многомасштабного оценивания скачков (SMUCE) 31
2.5. Обнаружение скачков с помощью диадических интервалов 34
2.5.1. Метрическое пространство интервалов 34
2.5.2. Одномерный случай 35
2.6. Проверка гипотез: false discovery 38
Глава 3. Обнаружение и оценивание скачков для различного шума . . 40
3.1. Гауссовский шум 40
3.1.1. Одномерный случай 40
3.1.2. Двумерный случай 45
3.2. Пуассоновский случайный процесс 48
3.2.1. Одномерный случай 48
3.2.2. Двумерный случай 54
Заключение
Список литературы 61
Приложение А. Анализ алгоритмов для одномерного случая 63
А.1. Реализация алгоритмов 63
А.1.1. Реализация алгоритма Мунка 63
А.1.2. Реализация SaRa 66
А.1.3. Реализация алгоритма В. Г. Спокойного 70
Целью данной выпускной работы является изучение вопроса обнаружения скачков и оценивания скачкообразных функций, когда имеется много моментов разладки.
Такие задачи встречаются во многих сферах деятельности, в том числе экономике, медицине и естественных науках, мобильной связи, обработке изображений и т.д. Этот вопрос изучался в большом числе работ. Например, обнаружение вариаций числа копий генов в ДНК (CNV - Copy Number Variations) сводится к задаче нахождения моментов разладки в исходных данных. В статье [1] был рассмотрен метод для решения такой задачи. Вопрос обнаружения моментов разладки в зашумленных данных был также изучен в работах [2], [3]. При этом одним из ключевых вопросов являлась минимальная ширина скачка, которую можно обнаружить. Этот вопрос был досконально изучен для одномерной регрессии.
Нами изучается данный вопрос для скачков в пуассоновских процессах. Мы находим точную (с точности до константы) асимптотическую ширину скачка (разрыва) для пуассоновских процессов, которую можно обнаружить в контексте одного из первых алгоритмов обнаружения моментов раздалки, представленных в работе [5]. Существует много методов оценивания регрессионной модели со скачками, но наиболее распространенными являются работы [4] и [1], однако результаты этих работ не сравнивались ранее. Таким образом, основной задачей было сравнить работу алгоритмов в работах [4] и [1], а также рассмотреть один из первых алгоритмов [5], реализовать его и сравнить с методами [4] и [1].
В главе (2) приведен подробный обзор существующих методов решений такого типа задачи.
Основные результаты, полученные в ходе исследованияя представлены в главе (1), а именно:
• Теоретические оценки для исходного и модифицированного алгоритмов;
• Практические результаты и сравнительный анализ алгоритмов.
Подробный анализ и доказательства приведены в главе (3).
В данной выпускной работе была изучена проблема оценивания разреженных функций и также был подробно изучен вопрос обнаружения скачков в зашумленных данных.
В ходе работы было выполнено следующее:
• Найдена нижняя и верхняя границы ширины скачка для обнаружения его в пуассоновских процессах. Кроме того, было показано, что эти границы достигаются
(см. раздел 3.2). Также нами был рассмотрен двумерный вариант скачка для исходной постановки задачи (регрессионной модели с гауссовским шумом) и для
пуассоновских случайных процессов (см. разделы 3.1.2 и 3.2.2).
• Дан обзор методов, оценивающих модель регрессии, которая имеет скачкообразный характер.
• Осуществлено сравнение 3–х алгоритмов (Алгоритм Мунка [4], Спокойного [5] и
SaRa [1]), которые ранее не сравнивались между собой (см. раздел 1.2). Реализация алгоритмов выполнена в среде программирования R А.
Сравнив все три алгоритма ( [4], [1], [5]), можно сделать такие выводы:
• Для модели регрессии с гауссовским шумом точнее всего оценивает моменты разладки, ширину и высоту скачка алгоритм Мунка [4]. Оценки SaRa [1] прближаются
к истинному значению, но гораздо хуже оценок алгоритма Мунка. Алгоритм Спокойного [5] в текущей реализации оценивает моменты разладки, высоту и ширину
скачка хуже остальных алгоритмов.
• Для пуассоновских процессов самым точным также оказался алгоритм Мунка [4].
Оценки алгоритмов SaRa [1] и Спокойного [5] также приближаются к истинным
значениям, однако хуже, чем алгоритм Мунка.
Полученные в данной выпускной работе результаты могут послужить основой для
продолжения исследования по задаче “размазанной” разреженности. Дальнейшими перспективами являются изучение задачи асимптотического обнаружения скачка, когда
его размер зависит от мощности скачка, а также изучение сложной геометрии многомерных разрывов
1. Hao N., Niu Y. S., Zhang H. Multiple change-point detection via screening and ranking algorithm // Statistica Sinica. — 2013. — Vol. 23. — P. 20.
2. Arias-Castro E., Donoho D. L. Near-optimal detection of geometric objects by fast mul¬tiscale methods. —— 2005. —— July. —— Vol. 51, no. 7.
3. Arias-Castro E., Wang M. Distribution-free tests for sparse heterogeneous mixtures // Department of Mathematics, University of California, San Diego.— 2013. — Novem¬ber. —— Vol. 15.
4. Frick K., Munk A., Sieling H. Multiscale change-point inference // Mathematics Subject Classification. —— 2010.
5. Spokoiny V. G. Estimation of a function with discontinuities via local polynomial fit with an adaptive window choice // The Annals of Statistics. —— 1998. —— Vol. 26, no. 4. —— P. 1356 — 1378.
6. Niu Y. S., Hao N., Zhang H. Multiple change-point detection: a selective overview.
7. Asymptotic Theory of Statistics and Probability / Ed. by I. Olkin G. Casella, S. Fien- berg. —— Purdue University 150 North University Street West Lafayette, IN 47907 : Anir- ban DasGupta, 2008.
8. Ingster Y. I., Kutoyants Y. A. Nonparametric hypothesis testing for an intensity of Poisson process. —— St. Petersburg State Electrotechnical University and Laboratoire de Statistique et Processus, Universit du Maine.
9. M. A. The large deviation principle for stochastic processes. ii // Theory.Probab.Appl. —— 2004. —— Vol. 48. —— P. 19—44.
10. Tibshirani R., Wang P. Spatial smoothing and hot spot detection for CGH data using the fused lasso // Biostatistics. —— 2007. —— May.
11. Reconstructing DNA copy number by penalized estimation and imputation / Zhongyang Zhang, Kenneth Lange, Roel Ophoff, Chiara Sabatti // The Annals of Ap¬plied Statistics. —— 2010. —— Vol. 4, no. 4. —— P. 1749—1773.
12. Detection of DNA copy number variations using penalized least absolute deviations regression : Rep. : 386 / The University of Iowa ; Executor: Xiaoli Gao, Jian Huang : 2007. —— December.
13. Detection of DNA copy number alterations using penalized least squares regression / Tao Huang, Baolin Wu, Paul Lizardi, Hongyu Zhao // Bioinformatics. — 2005. —Au¬gust.-Vol. 21, no. 20.-P. 3811-3817.
14. Хандыго Т Применение метода имитации отжига в задаче аппроксимации функции регрессии. Дипломная работа. — 2015.
15. Mitzenmacher M., Upfal E. Probability and Computing. Randomized Algorithms and Probabilistic Analysis. — Press Syndicate of the University of Cambrige, 2005.