Реферат 2
ВВЕДЕНИЕ 4
1 ХАРАКТЕРИСТИКА ВРЕМЕННЫХ РЯДОВ. ПОСЛЕДОВАТЕЛЬНОЕ ОЦЕНИВАНИЕ 7
Последовательный выбор 8
Процедура последовательного оценивания 11
Риск процедуры последовательного оценивания 12
Оптимальность процедуры оценивания с фиксированным числом шагов наблюдения 13
1.1 СРАВНЕНИЕ ПОДХОДОВ К ОЦЕНИВАНИЮ ПАРАМЕТРА МОДЕЛИ УСТОЙЧИВОЙ
АВТОРЕГРЕССИИ ПЕРВОГО ПОРЯДКА С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ 14
Постановка задачи 14
Результаты численного моделирования 16
Выводы по главе 1 20
2 АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ И АСИМПТОТИЧЕСКАЯ ЭФФЕКТИВНОСТЬ 22
2.1 АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ 22
2.2 АСИМПТОТИЧЕСКАЯ ЭФФЕКТИВНОСТЬ 25
2.3 АСИМПТОТИЧЕСКАЯ ЭФФЕКТИВНОСТЬ В УСЛОВИЯХ ЛАН 27
2.4 НЕКОТОРЫЕ ВИДЫ ЭФФЕКТИВНОСТЕЙ 29
Асимптотическая эффективность по Бахадуру 2 9
Эффективность по С. Р. Рао 31
2.5 АСИМПТОТИЧЕСКИЙ ВИД РАСПРЕДЕЛЕНИЯ ОЦЕНОК ПАРАМЕТРОВ
АВТОРЕГРЕССИОННОЙ МОДЕЛИ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ 32
Постановка задачи. Построение последовательной процедуры 34
Асимптотическое распределение последовательных оценок 35
1
Асимптотическая нормальность вектора п=(0 (Я) — 0) 3 8
Н
Пример 1. Модель авторегрессии первого порядка (AR(1)) с непрерывным временем 39
Пример 2. Модель авторегрессии второго порядка (AR(2)) с непрерывным временем 41
Выводы по главе 2 44
3 ПОСЛЕДОВАТЕЛЬНЫЕ МЕТОДЫ ОБНАРУЖЕНИЯ «РАЗЛАДКИ» В МОДЕЛЯХ ВРЕМЕННЫХ РЯДОВ 45
Общая классификация задач 4 5
Основные требования, предъявляемые к алгоритмам обнаружения «разладки». .. 4 6
Актуальные вопросы синтеза и анализа алгоритмов обнаружения «разладки» ... 46
3.1 ПОСЛЕДОВАТЕЛЬНЫЙ НЕПАРАМЕТРИЧЕСКИЙ МЕТОД ОБНАРУЖЕНИЯ «РАЗЛАДОК» СЛУЧАЙНЫХ ПРОЦЕССОВ РЕКУРРЕНТНОГО ТИПА 47
Постановка задачи 4 7
Построение решающей процедуры 4 7
Выбор параметров и исследование свойств решающей процедуры 4 9
Экспериментальное исследование алгоритма CUSUM 5 6
Экспериментальное исследование алгоритма для детерминированных сигналов .. 57
Обнаружение «разладки» процесса авторегрессии 60
Экспериментальное исследование алгоритма для авторегрессионных моделей ... 60
3.2 МЕТОД СЕГМЕНТАЦИИ ВРЕМЕННЫХ РЯДОВ ПРОИЗВОЛЬНОЙ ПРИРОДЫ 63
Основные определения и формулировки результатов 64
Методология сегментации временных рядов 70
Результаты вычислительных экспериментов 71
Модификация метода сегментации Б. С. Дарховского 79
Выводы по главе 3 81
ЗАКЛЮЧЕНИЕ 85
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 89
Приложение A 92
Приложение B 93
Приложение C 95
Приложение D 97
Приложение E 99
В задачах обработки временных рядов, идентификации, прогнозирования и управления в динамических системах широко используются модели с непрерывным временем, описываемые стохастическими дифференциальными уравнениями. Зачастую параметры таких уравнений неизвестны, поэтому перед использованием модели для решения основных задач фильтрации, прогнозирования, управления требуется идентифицировать параметры непосредственным оцениванием. Для осуществления этой цели разработаны различные эффективные методы: максимального правдоподобия, стохастической аппроксимации, наименьших квадратов и т. д. [13]. В большинстве случаев получаемые оценки являются существенно нелинейными функциями и поддаются исследованию лишь в асимптотике при неограниченной длительности наблюдений [13].
Асимптотические методы идентификации, такие, например, как метод максимального правдоподобия [1], метод моментов [1], метод наименьших квадратов [1], [2], [18], позволяют находить оценки неизвестных параметров с известными
статистическими свойствами при неограниченном увеличении объема наблюдений. Однако, для практических задач типична неасимптотическая проблема оценивания, когда требуется определить длину реализации, при которой оценки достигают заданной точности [16]. Для решения задач в неасимптотической постановке требуются методы, позволяющие контролировать точность оценок при малых и средних объемах данных [13]. В практических задачах объем доступных данных всегда конечен и желательно иметь представление о качестве оценок, вычисленных по наблюдениям на ограниченном временном интервале [13]. Одним из подходов к задачам оценивания в
неасимптотической постановке является подход с позиции последовательного анализа. Последовательный метод оценивания параметров позволяет получить оценки с гарантированным качеством в среднеквадратическом смысле за конечное время. Время оценивания при этом определяется правилом остановки, построенным по наблюдаемому процессу [21].
Хорошо изучены асимптотические свойства вектора оценок 0т по методам максимального правдоподобия и наименьших квадратов: они являются сильно состоятельными и асимптотически нормальными [13]. В прикладных задачах использование асимптотических свойств оценок обычно основывается на предположении, что эти свойства сохраняются для малых и умеренных объемов данных. Однако поведение оценок при малых и умеренных длительностях наблюдений может существенно отличаться от асимптотического, а это может привести к неточным выводам при принятии решений [13].
В настоящее время актуальной задачей математической статистики является развитие методов обработки данных на основе выборок с фиксированным объемом. Одним из таких подходов является хорошо известный последовательный метод оценивания, который успешно применяется для параметрических и непараметрических задач.
Впервые идея об использовании последовательной схемы наблюдений возникла в ходе конструирования экономных планов выборочного статистического контроля качества продукции [10]. В 50-60х годах для точечного и интервального оценивания с неизвестным средним значением был предложен метод, использующий правила остановки. С помощью этих правил последовательно определялся необходимый объем выборки - случайный и не превышающий фиксированного объема. Этот подход впервые был применен А. Вальдом для независимых наблюдений [10]. Для оценивания параметров стохастических дифференциальных уравнений идея последовательного оценивания впервые была предложена А. Новиковым, Р. Липцером и А. Ширяевым [20, 23-24]. Ими была решена задача гарантированного оценивания параметра стохастического дифференциального уравнения
dxt = dxtdt + adwt
Для оценивания неизвестного параметра в был предложен последовательный план 5(т,0*) [20, 23-24]
т = тн(^) = inf {t: J a2(^)ds = H •,
гн(Э
в'=1 J ai(f)dft
В работах [20, 23-24] было доказано, что последовательная оценка имеет преимущества перед классической оценкой МНК: она является несмещенной и гауссовской. Однако этот метод оказывается непригодным в более общей ситуации, когда число неизвестных параметров превышает размерность наблюдаемого процесса [13]. В дальнейшем идея применения последовательного анализа данных к оцениванию параметров стохастических дифференциальных и разностных уравнений развивалась в работах В. Борисова [30], В. Конева [30, 33-36], С. Пергаменщикова [33, 36] и т.д.
В большинстве практических задач имеется ограниченное доступное количество шагов наблюдения, часто измеряемое единицами, а потери существенно растут с увеличением числа шагов наблюдения. Кроме того, измеряемый параметр часто не постоянен, а является случайным процессом. При использовании последовательного оценивания достигается заметный выигрыш (в среднем) в числе наблюдений, необходимом для различения интересующих нас гипотез с заданными характеристиками точности. Поэтому к последовательной схеме наблюдений целесообразно обращаться в ситуациях, когда каждое наблюдение является дорогостоящим или труднодоступным и по условиям эксперимента исследователь имеет практическую возможность реализовать эту схему.
Еще одной актуальной задачей вероятностной диагностики является обнаружение резкого изменения свойств наблюдаемых случайных процессов, так называемой «разладки». В отличие от ретроспективных (апостериорных) методов статистической обработки, используемых при анализе выборок фиксированного объема, содержащих всю полученную информацию об объекте диагностирования, последовательное обнаружение ориентировано на задачи диагностирования в реальном времени. Это накладывает свои специфические требования к критериям построения алгоритмов принятия решения, основным из которых является минимизация времени на обнаружение «разладки» при фиксированной вероятности ложных тревог [10, 22].
Последовательное обнаружение момента изменений параметров случайных процессов возникает в различных практических приложениях, например, при контроле качества продукции, технологических, биомедицинских и эконометрических процессов, экологическом и социальном мониторинге и т.д. Разнообразие задач требует большого количества разных вероятностных моделей и методов их обработки. При этом необходимо отметить, что большинство теоретических работ, посвященных решению задач, связанных с «разладкой», сосредоточено на классе случайных процессов, который описывается гауссовским законом распределения. Однако реальные статистические данные часто отличаются от подобной модели. Используемые при этом классические методы, базирующиеся на аппарате плотности распределения вероятностей, называют параметрическими [14].
Основной проблемой параметрического подхода является требование к наличию априорной информации о виде законов распределения, высокая сложность как их алгоритмической реализации, так и анализа свойств. Это привело к тому, что значительная часть современных исследований связаны с построением прикладных статистических методов, которые направлены на минимизацию либо полное исключение требований к наличию априорной информации. Однако реализационно-простые непараметрические методы, не учитывающие вероятностный характер негауссовских процессов, могут иметь значительно меньшую точность сравнительно с оптимальными параметрическими методами [1].
Таким образом, актуальной остается проблема построения таких статистических моделей и методов, которые с одной стороны позволяли бы учитывать вероятностный характер негауссовских случайных процессов, т.е. были потенциально адаптивными. С другой стороны, они должны характеризоваться простотой как с точки зрения механизмов обучения и настройки, так и при непосредственной алгоритмической реализации.
Одним из перспективных направлений является использование статистик высоких порядков: моментов, кумулянтов или их функций. Как правило, использование
кумулянтного описания является более предпочтительным, поскольку гауссовская модель теоретически имеет отличные от нуля лишь кумулянты первых двух порядков [14]. Следовательно, кумулянтные коэффициенты третьего и выше порядков характеризуют степень негауссовости.
Поскольку моментно-кумулянтное описание является частичным, то для базирующихся на нем статистических методов существует асимптотическая возможность получения оптимальных результатов. Примерами использования этого описательного аппарата в различных предметных областях, связанных с обнаружением «разладки», являются детектирование видеопотоков [48], обнаружение мошенничества в телекомуникационных сетях [8], анализ энцефалограмм головного мозга человека [3].
Одними из наиболее распространенных подходов для решения задачи последовательного обнаружения «разладки» является группа методов, использующих алгоритм кумулятивных сумм (CUSUM). Основу этого подхода, идея которого принадлежит Пейджу, составляет статистика кумулятивной суммы, представляющая собой многократно применяемый последовательный анализ Вальда [10]. Примером применения параметрического алгоритма CUSUM является задача обнаружения сигналов контроля состояние рельсовой линии автоматической системы автоблокировки в условиях действия негауссовских помех [5].
Один из новых подходов к решению задач, связанных с обработкой негауссовских сигналов при их моментно-кумулянтном описании, базируется на непараметрическом методе, использующем понятие г-сложности. Идея метода заключается в изменении математического ожидания в специальном диагностическом процессе, который конструируется по исходным данным [3]. Эта идея позволяет обнаруживать изменения любых вероятностных характеристик временного ряда.
Цели и задачи работы:
• оценить параметры устойчивой модели авторегрессии с непрерывным временем и сравнить подходы к оцениванию параметров модели;
• исследовать асимптотическое распределение оценок неизвестных параметров авторегрессионной модели с непрерывным временем, полученных с помощью одноэтапной последовательной процедуры, предложенной в работе [13];
• исследовать последовательные методы обнаружения «разладки» моделей временных рядов.
Одной из центральных задач статистического анализа реальной системы заключается в вычислении на основании имеющихся статистических данных как можно более точных приближенных значений - статистических оценок - для одного или нескольких числовых параметров, характеризующих функционирование этой системы. Кроме того, актуальной задачей вероятностной диагностики является обнаружение резкого изменения свойств наблюдаемых случайных процессов - «разладки».
Приведем выводы и основные результаты проделанной работы.
1. Проведено исследование последовательной процедуры оценивания параметров устойчивой модели авторегрессии с непрерывным временем, получены оценки параметров, а также проведено сравнение подходов к оцениванию параметров модели.
Последовательная процедура оценивания параметров устойчивой модели авторегрессии с непрерывным временем строится на основе классической оценки по методам максимального правдоподобия и наименьших квадратов, используя специальное правило остановки наблюдений т*. Использование такого правила обусловлено тем, что точность классических оценок максимального правдоподобия и наименьших квадратов не поддается исследованию для малых и умеренных объемов данных. В качестве сравнительного подхода к оцениванию параметров выбирается оценивание с использованием оптимального времени наблюдения t0.
Проведено численное исследование для устойчивой модели авторегрессии первого порядка (Дй(1)) с непрерывным временем, в ходе которого установлены следующие результаты:
• последовательные оценки имеют меньшее отклонение от истинного значения параметра, чем оценки, вычисленные при оценивании с использованием оптимального времени наблюдения. Результаты разностей рисков отрицательны, что говорит об эффективной минимизации функции потерь последовательными оценками;
• увеличение цены наблюдений влияет на качество оценок, полученных при использовании оптимального времени наблюдения - при увеличении цены наблюдений, точность оценивания с выбором оптимального времени наблюдения улучшается, но не влияет значительным образом на качество последовательных оценок;
• в ходе численного исследования установлено, что применение последовательного подхода к оцениванию параметра устойчивой авторегрессионной модели с непрерывным временем эффективно минимизирует риск функции потерь, что является подтверждением эффективности последовательного оценивания для параметров устойчивой модели авторегрессии первого порядка с непрерывным временем.
2. Проведено исследование асимптотического распределения оценок неизвестных параметров авторегрессионной модели с непрерывным временем, полученных с помощью одноэтапной последовательной процедуры, предложенной в работе [13].
Рассматривается процесс вида
dXt = AXtdt + BdWt, где А и B - квадратные матрицы размера р X р, Wt - стандартный р-мерный процесс броуновского движения
Пусть неизвестные параметры в,, i = 1, p таковы, что все корни
характеристического полинома Q(z) = zp — в1хр-1 — ••• — вр лежат в единичном круге. Для оценивания неизвестного параметра используется последовательный план (тн, 6*(НУ), который задается формулами
т = Т(Я) = inf{t > 0: ||M-2h2 < 1},
т(Я)
Q*(H)=M-1H) I Xsd{Xt)p,
0
где Н > 0 - пороговое значение.
В работе сформулирована и доказана теорема о виде асимптотического распределения вектора -^(в*(Н) — в), согласно которой вектор имеет асимптотически VH
нормальное распределение с параметрами (0;F-1), где F — положительно определенная МТ
матрица, linr .,. — = г
В качестве иллюстрации утверждения теоремы приводятся примеры для моделей авторегрессии первого и второго порядков с непрерывным временем. Для этих моделей проводится имитационное моделирование, в ходе которого вычисляются моменты остановки тн, а также последовательные оценки параметра моделей в. Для каждой модели строится полигон частот и проводится тест Жака-Бера для подтверждения нормальности вычисленных оценок. Кроме того, проводится сравнение вычисленных оценок с истинным значением параметра, в результате чего устанавливается, что оценки, полученные при использовании предложенной последовательной процедуры оценивания, являются более точными по сравнению с оценками наименьших квадратов и менее отклоняются от истинного значения параметра модели.
3. Проведено исследование последовательных методов обнаружения
«разладки» моделей временных рядов.
3.1 Проведено исследование последовательного непараметрического метода
обнаружения «разладок» случайных процессов рекуррентного типа CUSUM. Экспериментальное исследование проводилось для детерминированных сигналов, а также для обнаружения «разладки» процесса авторегрессии. Рассмотрим полученные результаты:
• экспериментальное исследование алгоритма для детерминированных сигналов проведено для двух моделей: модель №1 - появление детерминированного сигнала на фоне независимых шумов с двумя моментами «разладки»; модель №2 - появление детерминированного сигнала на фоне зависимых шумов с двумя моментами «разладки». Для каждой модели были получены качественные оценки моментов «разладки» с минимальными значениями ложных тревог и временем запаздывания;
• экспериментальное исследование алгоритма для обнаружения «разладки» процесса
авторегрессии проведено для двух моделей: модель №1 - изменение параметра
авторегрессии при мультипликативных шумах с одним моментом «разладки»; модель №2 - модель авторегрессии второго порядка с девятью моментами «разладки». Также как и для моделей детерминированного сигнала, были получены качественные оценки моментов «разладки» с минимальными значениями отклонения от истинных моментов, значениями ложных тревог и временем запаздывания;
• в алгоритме CUSUM оценки «разладок» производятся по текущим наблюдениям процесса. При этом не требуется хранить в памяти всю реализацию процесса и иметь априорную информацию о числе «разладок» на интервале наблюдений;
• как показало численное моделирование, алгоритм CUSUM может эффективно использоваться для обнаружения как одиночной «разладки», так и серии разладок указанного типа.
3.2 Проведено исследование методологии сегментации временных рядов Б. С.
Дарховского. Экспериментальное исследование алгоритма проведено на примере четырех моделей...
1. Айвазян С. А. Прикладная статистика: Основы моделирования и первичная обработка данных. Справочное изд./С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. - М.: Финансы и статистика,1983. - 471 с.
2. Андерсон Т. Статистический анализ временных рядов: пер. с англ./ Т. Андерсон; под ред. Ю. К. Беляева - М.: Изд. Мир, 1976. - 755 с.
3. Дарховский Б. С., Пирятинская А. Новый подход к проблеме сегментации временных рядов произвольной природы. - Труды математического института им. В. А. Стеклова, 2014, т. 287, с. 61-74.
4. Бассвиль М. Обнаружение изменения свойств сигналов в динамических системах. - М.: Мир, 1989. - 278 с.
5. Беляков И. В. Обнаружение сигналов контроля состояния рельсовой линии в негауссовских помехах методом поиска разладки // Транспорт Урала. - 2011. - №4. - С. 26-28.
6. Бокс, Дж. Анализ временных рядов прогноз и управление / Дж. Бокс, Г. Дженкинс. - М.: Мир, 1974. - Т. 1. - 406 с.
7. Боровков А. А. Математическая статистика / А. А. Боровков. - М.: Наука, 1984. - 472 с.
8. Бродский Б. Е., Дарховский Б. С., “Проблемы и методы вероятностной
диагностики”, Автомат. и телемех., 1999, № 8, 3-50; Autom. Remote Control, 60:8
(1999), 1061-1096
9. Булинский А.В., Ширяев А.Н. Теория случайных процессов. - М.: ФИЗМАТЛИТ, 2005. - 408 с.
10. Вальд А. Последовательный анализ: пер. с англ. / А. Вальд; под ред. Б. А. Севастьянова - М.: Государственное изд. Физико-математической лит-ры, 1960. - 329 с.
11. Воробейчиков С. Э., Конев В. В., “Последовательный метод обнаружения разладок случайных процессов рекуррентного типа”, Автомат. и телемех., 1984, № 5, 27-38; Autom. Remote Control, 45:5 (1984), 568-577
12. Де Гроот М. Оптимальные статистические решения / М. де Гроот; под ред. Ю. В. Линника, А. М. Кагана. - М.: Мир, 1974. - 498 с.
13. Емельянова Т. В., Конев В. В., “О последовательном оценивании параметров непрерывной авторегрессии”, Вестн. Томск. гос. ун-та. Матем. и мех., 2013, № 5(25), 12-25
14. Заболотный С. В. Полиномиальная процедура CUSUM для последовательного обнаружения разладки по дисперсии негауссовских случайных процессов. - Информационно-управляющие системы на железнодорожном транспорте, 2014 №3, с. 3-9.
15. Ибрагимов И. А., Хасьминский Р. З. Асимптотическая теория оценивания. М.: Наука 1979...48