1. Введение 4
1.1. Цель и задачи 5
2. Обзор 6
2.1. Смесь распределений 6
2.2. Задачи оценки параметров смеси распределений 6
2.3. EM-алгоритм 7
2.4. Существующие решения 8
3. Алгоритм для оценки параметров смесей распределений 9
3.1. Критерии останова 9
3.2. «Плохие» распределения 10
4. Проектирование и реализация библиотеки 11
4.1. Архитектура библиотеки 11
4.2. Особенности реализации 12
5. Эксперименты 14
5.1. Дизайн эксперимента 14
5.2. Рассматриваемые распределения 14
5.3. Эксперимент со смесями одного семейства распределений 15
5.3.1. Результаты 16
5.4. Эксперимент с разделением двух распределений в смеси 24
5.5. Результаты 25
6. Заключение 28
Список литературы 29
Во многих прикладных задачах, связанных с математической статистикой, возникает необходимость оценки параметров распределения случайной величины. Для решения такой задачи могут быть использованы известные для конкретного распределения оценки параметров, такие как математическое ожидание и дисперсия для нормального распределения. В том случае, если хороших известных оценок нет, можно воспользоваться математическими оптимизаторами, позволяющими находить локальные экстремумы функции от вектора параметров.
Помимо задачи об оценке параметров для одного распределения случайной величины, существует также задача оценки параметров для смеси распределений случайной величины — комбинации нескольких распределений. Такая задача возникает при наблюдении более сложных процессов, в которых участвуют случайные величины более чем из одного распределения. При оценке смеси решается ряд задач: узнать, сколько различных распределений находится в смеси, определить вид и параметры каждого распределения, узнать соотношение распределений в смеси друг к другу (априорная вероятность).
Наиболее часто с оценкой параметров смеси распределений сталкиваются при анализе смесей нормальных распределений . Однако бывают задачи, в которых необходимо разделять и оценивать смеси в более общем виде. Например, смеси произвольных распределений, или смеси распределений из разных семейств.
Компания Huawei в октябре 2023 года опубликовала интернет-проект, посвящённый предсказанию задержек отправки пакетов через сеть, по наблюдаемым отправителем задержкам пакетов. Задержки пакетов в маршрутизаторе могут рассматриваться с помощью распределения Вейбулла, если исключить единичные выбросы, связанные с работой сетевого оборудования. Таким образом, определение компонент смеси распределений Вейбулла позволяет строить качественные модели задержек передачи пакетов в сетях.
Среди существующих статей и библиотек присутствует большое количество узконаправленных алгоритмов для анализа распределений и их смесей. Однако в ходе анализа предметной области не удалось найти универсальных инструментов для нахождения параметров произвольных смесей распределений.
• Был создан алгоритм для решения поставленной задачи (на основе EM-алгоритма в общем виде). Работа полученного алгоритма зависит от следующих параметров:
о метод математической оптимизации;
о условие остановки;
о условие корректности рассматриваемых распределений в смеси.
• Спроектирована архитектура библиотеки, реализующей предложенный алгоритм, которая отвечает требованиям по универсальности и расширяемости, позволяет работать со смесями распределений из различных семейств и дополнять библиотеку произвольными моделями распределений и различными реализациями ключевых параметров алгоритма.
• Библиотека реализована на языке Python и опубликована.
• Выполнено экспериментальное исследование, получены следующие результа- ты/выводы:
о доказана корректность разработанного алгоритма;
о выявлено, что с увеличением количества распределений в смеси растёт время работы и падает точность алгоритма, а с увеличением размера выборки растёт время работы и точность алгоритма;
о показано, что методы оптимизации обладают разными характеристиками и для эффективного решения задачи они могут быть использованы в комбинации друг с другом;
о показана способность алгоритма разделять близкие распределения случайной величины.