Человек в своей повседневной жизни непрерывно сталкивается со случайными явлениями, т.е. явлениями, которые точно предсказать невозможно. Эти явления имеют количественную характеристику, которая называется случайной величиной. Закон распределения вероятностей случайной величины - это некоторая функция, которая позволяет определить вероятность того, что случайная величина принимает определенное значение или попадает в некоторый интервал. Благодаря закону распределения можно исследовать разнообразные величины, даже те, среди которых существует разброс. Множество физических процессов имеет случайную природу (к примеру, траектория движения молекулы). Каждую из этих величин необходимо описать. Для этого наиболее подходящим представляется использование закона распределения вероятностей.
Идентификация закона распределения вероятности представляет собой сложную, но необходимую задачу. Качество решения которой, напрямую зависит не только от применения конкретного метода, но и от объема имеющихся экспериментальных данных.
Для решения задачи определения закона распределения вероятности в основном применяются классические методы, основанные на математические статистики, и топологические методы.
Далее рассмотрим топологический и классический подходы.
При использовании классического метода обязательным условием является прохождение трех этапов: первое - определения модели закона распределения на основе имеющихся экспериментальных данных, нахождение оценок параметров этого закона и проверка этой модели на соответствие экспериментальным данным с помощью критериев согласия. Если критерий согласия дает отрицательный результат, то все начинается сначала, т.е. следует перейти на первый этап. Успех данного подхода определяется двумя факторами: множеством моделей законов распределения, которые рассматриваются в задаче, и используемых методов статистики. Следует отметить, что разные критерии согласия дают различные степени отклонения фактического закона распределения вероятности от теоретического. Поэтому целесообразно применять несколько критериев согласия одновременно. Это позволить получить наиболее достоверные результаты, т.е. достичь максимальный уровень правдоподобия и сократить вероятность ошибки. Однако для рассмотрения большого объема моделей закона распределения вероятности необходимо использовать определенное программное обеспечение.
Не следует забывать о выбросах, так как некоторые методы оценивания параметров распределения чувствительны к ним. Во избежание ошибочных результатов необходимо очищать выборку от аномальных измерений.
Топологический метод основан на использовании оценок моментов, например таких как: асимметрия и эксцесс. Эти оценки получаю по имеющимся экспериментальным данным. Если рассматривать значения асимметрии и эксцесса, как координаты точки, можно, исходя из близости ее к одной из линий, представляющих некоторые распределения, судить о принадлежности данной случайной величины этому закону. Данный метод следует применять при больших объемах исходной выборки, очищенной от аномальных измерений. Его можно использовать как предварительный, позволяющий выбрать из всего множества моделей закона распределения некоторую совокупность наиболее вероятных, которую в дальнейшем целесообразно обрабатывать классическим методом.
У большинства исследователей сложилось мнение, что топологический метод идентификации закона распределения случайной величины применять не следует. Это связано с тем, что данный подход требует большой вычислительной мощности, и ранее не было возможности проверить его работоспособность на практике. Сейчас же вычислительная способность компьютеров возросла, это позволяет создать программный продукт, реализующий топологический метод идентификации закона распределения случайной величины.
Объектом данной дипломной работы является закон распределения вероятностей.
Предмет представляет собой случайную выборку размера n.
Целью является идентификация закона распределения выборки по параметрам формы.
Задачи исследования.
1) Анализ теоретических источников об идентификации законов распределения.
2) Теоретически обосновать топологический метод для произвольного закона распределения случайной величины.
3) Выбор программной среды для выполнения статистических расчетов.
4) Разработка алгоритма топологической идентификации закона распределения вероятности случайной величины.
5) Разработка программной реализации алгоритма и апробация эффективности его работы.
В процессе выполнения магистерской диссертации проведен анализ теоретических источников об определении закона распределения вероятности случайной величины классическими и топологическими методами. На основание чего можно утверждать, что необходим новый метод определения закона, основанный на форме полигона выборки, а точнее по значениям оценок асимметрии и эксцесса, значений blt Ь2 и выполнения условий системы формулы 2.1.3. Т.е. для данного метода применяются три критерия определения закона распределения исследуемой выборки.
Также проведен небольшой анализ существующих программных решений для статистических расчетов, на основании которого сделан вывод о том, что наиболее подходящим является язык и среда статистических расчетов R, который позволил генерировать выборку по закону распределения, преобразовывать ее согласно алгоритму. Для удобства проверки эффективности разработанного алгоритма создан программный продукт на языке C# в среде разработки Visual Studio 2017 Community. В процессе исследования выявлено, что в некоторых случая язык R не поддерживает векторного расчета. Это существенно замедляет работу программы.
Данный метод следует применять, когда объем выборки превышает пороговое значение в 60 - 70 измерений. В противном случае, алгоритм будет выдавать неверный результат.
Для повышения робастности сгенерированная выборка очищается от аномальных измерений с помощью критерия Грабса. Причем осуществляется одновременная проверка на три максимальный или минимальных выбраса. Благодаря чему удается существенно повысит качество правильно принятых гипотез.
смешиваются друг с другом, что по топологическому методу невозможно дать однозначный ответ в пользу того или иного закона распределения, в то время как критерий хи - квадрат дает однозначные результаты. При выборке большого объема и малой зашумлённости алгоритм работает эффективнее. Следует учесть, что разработанный алгоритм опробован не на всех законах распределения случайной величины, и возможны ситуации, когда данный метод будет лучше справляться с поставленной задачей для какого-либо другого распределения, чем классические критерии.
Также необходимо отметить, что данный метод может быть использован вместе с классическими критериями при большом наборе данных, что позволит точнее определить по полигону выборки закон, путём выделения определенной группы распределений, которую далее проверяют на каком-либо другом классическом методе.
1. Айвазян, С. А. Прикладная статистика: Основы моделирования и первичная обработка данных : Справочное изд. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. — М.: Финансы и статистика, 1983. — 471 с.
2. Андронов, А. М. Теория вероятностей и математическая статистика : Учебник для вузов. / А. М. Андронов, Е. А. Копытов, Л. Я. Гринглаз. — СПб. : Питер, 2004.
3. Вадзинский, Р.Н. Справочник по вероятностным распределениям. : / Р. Н. Вадзинский. — М.: Наука, 2001. — 295 с.
4. Вентцель, Е. С. Теория вероятностей : учебник / Е.С. Вентцель. — М. : Наука, 1969. — 576 с. с илл.
5. Гмурман, В. Е. Теория вероятностей и математическая статистика. : Учебник для прикладного бакалавриата. / В. Е. Гмурман. — М.: Юрайт, 2015. — 480 с.
6. Зорин, А.В., Введение в прикладной статистический анализ в пакете R. : Учебно-методическое пособие. / А. В. Зорин, М. А. Федоткин. — Нижний Новгород. : Нижегородский гос. ун-т им. Н. И. Лобачевского, 2010. — 50 с.
7. Кобзарь, А. И. Прикладная математическая статистика. Для инженеров и научных работников : / А. И. Кобзарь. — М. : Физматлит, 2006. — 816 с.
8. Коробейников, А.И. Анализ данных с R. : Методические указания к спецкурсу «Вычислительные методы и пакеты в статистическом исследовании». / А. И. Коробейников, С. В. Малов, И. В. Матвеева. — Санкт-Петербург, 2010. — 12 с.
9. Кремер, Н. Ш. Теория вероятностей и математическая статистика. : Учебник для студентов вузов / Н. Ш. Кремер. — М. : ЮНИТИ-ДАНА, 2012. — 551с.
10. Пустыльник, Е. И. Статистические методы анализа и обработки наблюдений. : / Е. И. Пустыльник. — М. : Наука, 1968.
11. Савельев, А. А., Использование языка R для статистической обработки данных. : Учебно-методическое пособие / А. А. Савельев, С. С. Мухарамова, А. Г. Пилюгин. — Казань. : Казанский гос. ун-т, 2007. — 28 с.