Оценивание параметров генеральной совокупности с учетом дополнительной информации
|
Аннотация
Перечень условных терминов 8
Введение 9-12
1 Основные принципы работы с выборкой 13
1.1 Цель работы и постановка задач 13
1.2 Обоснование выбора метода 14-16
1.3 Достоверность выборки 17-23
1.4 Объективность исследования 24
1.5 Основы выборочного исследования и формирования простой
случайной выборки 25
1.6 Характеристики выборки 26-27
1.7 Способы построения выборки 28
1.8 Генеральная совокупность 29-30
2 Оценивание математического ожидания с учетом доли объектов с заданным
значением признака 31
2.1 Постановка задачи 31-32
2.2 Комбинированная оценка 33-35
2.3 Адаптивная оценка 36-37
3 Анализ СКО комбинированной оценки функционала при конечном объеме
наблюдений 38
3.1 Постановка задачи. Структура оценки и ее свойства 38-41
3.2 Адаптивные оценки 42-43
3.3 СКО при неизвестной дисперсии 44-51
3.4 СКО при известной дисперсии 52-63
Заключение 64-65
Список использованной литературы 66-69
Перечень условных терминов 8
Введение 9-12
1 Основные принципы работы с выборкой 13
1.1 Цель работы и постановка задач 13
1.2 Обоснование выбора метода 14-16
1.3 Достоверность выборки 17-23
1.4 Объективность исследования 24
1.5 Основы выборочного исследования и формирования простой
случайной выборки 25
1.6 Характеристики выборки 26-27
1.7 Способы построения выборки 28
1.8 Генеральная совокупность 29-30
2 Оценивание математического ожидания с учетом доли объектов с заданным
значением признака 31
2.1 Постановка задачи 31-32
2.2 Комбинированная оценка 33-35
2.3 Адаптивная оценка 36-37
3 Анализ СКО комбинированной оценки функционала при конечном объеме
наблюдений 38
3.1 Постановка задачи. Структура оценки и ее свойства 38-41
3.2 Адаптивные оценки 42-43
3.3 СКО при неизвестной дисперсии 44-51
3.4 СКО при известной дисперсии 52-63
Заключение 64-65
Список использованной литературы 66-69
В современном обществе существует множество накопленных знаний, которые хранятся в форме статистических данных. Поэтому увеличивается актуальность задач с высокой априорной неопределенностью, когда о виде функций практически нет доступной информации и неизвестны распределения величин. В связи с этим актуальным является вопрос об анализе, переработке и хранении такой информации. Необходимость увеличить качество оценок или уменьшить объем данных, требуемых для достижения определенной точности, приводит к необходимости рационального учета всех доступных сведений.
Методы, существующие в математической статистике и теории вероятности, и позволяют добиться повышения точности статистических оценок за счет привлечения априорной информации.
Влияние априорной информации на оценку может варьироваться в зависимости от типа используемой информации. Например, она может быть использована в виде информации о доли объектов с некоторым значением признака или априорной догадки о некотором значении функционала. Одним из возможных вариантов использования доступных данных является априорная информация о множестве пропорций в генеральной совокупности. Априорные знания о распределении могут нести информацию о непрерывности, симметрии, квантилях, моментах, функциональном виде и т.д.
Многие задачи решаются нахождением значений функционалов от неизвестного распределения по результатам наблюдений над случайными величинами, распределение которых неизвестно. В таких случаях результаты проводимых экспериментов, наблюдений и измерений позволяют оценить распределение.
Практически всегда исследователь, кроме выборки, обладает какой-либо дополнительной информацией об оцениваемом функционале или распределении. Информация может быть доступна в виде значения из заданного множества, которое может принимать функционал, симметричность распределения может быть известна, или же определены моменты заданных уровней и т.п. Появляется необходимость в методах, которые бы позволили учесть многозначную априорную информацию и информацию со смещениями при обработке данных при помощи статистическим. Информация, заданная в виде конечных множеств возможных значений некоторых функционалов называется многозначной. Если истинные значения функционалов не принадлежат заданным множествам, то появляются смещения. Такую информацию будем считать априорной догадкой. Чтобы получить априорную догадку можно воспользоваться знаниями и опытом эксперта.
Многие достижения современной технической кибернетики, медицины, физики, радиотехники, измерительной техники, биологии, геофизики, социологии и других, активно развивающихся наук, базирующихся на обработке экспериментальных данных, основаны на разнообразных подходах в статистике. Результаты востребованы в задачах выборочного контроля качества, в теории надежности, социологии, маркетинге, клинических исследованиях, лотереях, а так же при демографических исследованиях. Так как задачи с использованием априорной информации широко востребованы во многих направлениях, таких как техника, экономика, транспорт, здравоохранение, политика и многих других, то данная тема активно развивается и на западе.
Первыми исследованиями по условному оцениванию функций распределения и функционалов занимались H.H. Hansen, S. K. Ray, R. K. Singh, H.O. Hartley, D.Hinkley, E.F.Schuster, Ю.Г.Дмитриев, Г.М. Кошкин, Ф.П. Тарасенко, Ю.Н.Тюрин, Ю.К.Устинов, В.Н.Пугачев.
Например, в работах[1-4] предлагают использовать информацию о множестве пропорций при изучении свойств оценок на примере оценки среднего значения переменной.
Различные типы использования априорной информации рассмотрены в [5], где изучено статистическое оценивание распределений вероятности с использованием дополнительной информации.
Адаптивные комбинированные оценки, учитывающие априорную догадку и непараметрическую оценку функционала одновременно, были представлены в работах[7-12]. Также интересен метод, использующий априорную информацию о некоторых функционалах плотности [13], который рассмотрен при получении комбинированных оценок регрессии, как в случае конечного объема выборки N, так и в асимптотическом случае.
Возможно использование эмпирического метода оценки вероятности при доступности некоторой вспомогательной информации. Так, в работе [24] предложена оценка условного квантиля с учетом дополнительной информации. В статье показано, что асимптотическое смещение во внутренних точках у показанной оценки меньше, чем у обычных ядерных оценок. Помимо этого, установлено, что у предложенной оценки есть необходимые свойства выборки и на граничных и на внутренних точках.
Помимо этого, комбинированные оценки активно используются при работе с нейронными сетями [25]. Благодаря комбинированным оценкам и новому подходу, результаты имеют лучшую общую производительность и улучшают уровень сходимости, в отличие от стандартных методов.
В [30] предложен метод оценивания вероятностных характеристик, который использует результаты, полученные в ходе испытаний и априорную информацию, сформированную в ходе статистического моделирования и теоретических исследований.
Оценки распределений, полученные по методу ортогональных проекций дали начало таким исследованиям, как [31], где проводится построение ряда критериев проверки гипотез.
Методы описания показателей надежности изделий и их составных частей по результатам испытаний и эксплуатации с использованием априорной информации предложены в [32]. Источником такой информации является анализ надежности при проектировании, помимо этого могут быть использованы результаты предыдущих испытаний.
Предложенные методы позволяют получить достаточно надежные результаты при меньших затратах на реализацию, а также наиболее выгодно, в том числе экономически, исследовать генеральную совокупность.
Так как априорная информация о доле объектов, обладающих конкретным значением признака, может позволить добиться более высокой точности при оценке генеральной совокупности, то рассмотрим этот метод, используя подход, предложенный в [1-5]. При этом будем использовать дополнительную информацию о качественном признаке, который обладает некоторым заданным значением.
Подобный метод рассматривается в работе [20], когда на основании опыта или знаний, эксперт или исследователь выдвигает некоторое предположение о значении искомой доли.
Методы, существующие в математической статистике и теории вероятности, и позволяют добиться повышения точности статистических оценок за счет привлечения априорной информации.
Влияние априорной информации на оценку может варьироваться в зависимости от типа используемой информации. Например, она может быть использована в виде информации о доли объектов с некоторым значением признака или априорной догадки о некотором значении функционала. Одним из возможных вариантов использования доступных данных является априорная информация о множестве пропорций в генеральной совокупности. Априорные знания о распределении могут нести информацию о непрерывности, симметрии, квантилях, моментах, функциональном виде и т.д.
Многие задачи решаются нахождением значений функционалов от неизвестного распределения по результатам наблюдений над случайными величинами, распределение которых неизвестно. В таких случаях результаты проводимых экспериментов, наблюдений и измерений позволяют оценить распределение.
Практически всегда исследователь, кроме выборки, обладает какой-либо дополнительной информацией об оцениваемом функционале или распределении. Информация может быть доступна в виде значения из заданного множества, которое может принимать функционал, симметричность распределения может быть известна, или же определены моменты заданных уровней и т.п. Появляется необходимость в методах, которые бы позволили учесть многозначную априорную информацию и информацию со смещениями при обработке данных при помощи статистическим. Информация, заданная в виде конечных множеств возможных значений некоторых функционалов называется многозначной. Если истинные значения функционалов не принадлежат заданным множествам, то появляются смещения. Такую информацию будем считать априорной догадкой. Чтобы получить априорную догадку можно воспользоваться знаниями и опытом эксперта.
Многие достижения современной технической кибернетики, медицины, физики, радиотехники, измерительной техники, биологии, геофизики, социологии и других, активно развивающихся наук, базирующихся на обработке экспериментальных данных, основаны на разнообразных подходах в статистике. Результаты востребованы в задачах выборочного контроля качества, в теории надежности, социологии, маркетинге, клинических исследованиях, лотереях, а так же при демографических исследованиях. Так как задачи с использованием априорной информации широко востребованы во многих направлениях, таких как техника, экономика, транспорт, здравоохранение, политика и многих других, то данная тема активно развивается и на западе.
Первыми исследованиями по условному оцениванию функций распределения и функционалов занимались H.H. Hansen, S. K. Ray, R. K. Singh, H.O. Hartley, D.Hinkley, E.F.Schuster, Ю.Г.Дмитриев, Г.М. Кошкин, Ф.П. Тарасенко, Ю.Н.Тюрин, Ю.К.Устинов, В.Н.Пугачев.
Например, в работах[1-4] предлагают использовать информацию о множестве пропорций при изучении свойств оценок на примере оценки среднего значения переменной.
Различные типы использования априорной информации рассмотрены в [5], где изучено статистическое оценивание распределений вероятности с использованием дополнительной информации.
Адаптивные комбинированные оценки, учитывающие априорную догадку и непараметрическую оценку функционала одновременно, были представлены в работах[7-12]. Также интересен метод, использующий априорную информацию о некоторых функционалах плотности [13], который рассмотрен при получении комбинированных оценок регрессии, как в случае конечного объема выборки N, так и в асимптотическом случае.
Возможно использование эмпирического метода оценки вероятности при доступности некоторой вспомогательной информации. Так, в работе [24] предложена оценка условного квантиля с учетом дополнительной информации. В статье показано, что асимптотическое смещение во внутренних точках у показанной оценки меньше, чем у обычных ядерных оценок. Помимо этого, установлено, что у предложенной оценки есть необходимые свойства выборки и на граничных и на внутренних точках.
Помимо этого, комбинированные оценки активно используются при работе с нейронными сетями [25]. Благодаря комбинированным оценкам и новому подходу, результаты имеют лучшую общую производительность и улучшают уровень сходимости, в отличие от стандартных методов.
В [30] предложен метод оценивания вероятностных характеристик, который использует результаты, полученные в ходе испытаний и априорную информацию, сформированную в ходе статистического моделирования и теоретических исследований.
Оценки распределений, полученные по методу ортогональных проекций дали начало таким исследованиям, как [31], где проводится построение ряда критериев проверки гипотез.
Методы описания показателей надежности изделий и их составных частей по результатам испытаний и эксплуатации с использованием априорной информации предложены в [32]. Источником такой информации является анализ надежности при проектировании, помимо этого могут быть использованы результаты предыдущих испытаний.
Предложенные методы позволяют получить достаточно надежные результаты при меньших затратах на реализацию, а также наиболее выгодно, в том числе экономически, исследовать генеральную совокупность.
Так как априорная информация о доле объектов, обладающих конкретным значением признака, может позволить добиться более высокой точности при оценке генеральной совокупности, то рассмотрим этот метод, используя подход, предложенный в [1-5]. При этом будем использовать дополнительную информацию о качественном признаке, который обладает некоторым заданным значением.
Подобный метод рассматривается в работе [20], когда на основании опыта или знаний, эксперт или исследователь выдвигает некоторое предположение о значении искомой доли.
В данной магистерской выпускной квалификационной работе предложены и исследованы методы учета дополнительной (априорной) догадки о распределениях случайных величин в статистической обработке данных и априорной информации о доле объектов, обладающих конкретным значением признака.
Выполнено построение оценки вероятностных характеристик и изучено влияния априорной информации о доле объектов, обладающих конкретным значением признака, на точность оценивания (дисперсию). Новый метод вовлечения априорной информации, базирующийся на использовании доли объектов, когда значение некоторого признака задано, дает выигрыш в виде
' Л2 M§JW- JP - P))2
° = MJy J) - -p)’ •
Также были построены комбинированные оценки с учетом априорной догадки и изучены свойства комбинированной оценки линейного функционала, учитывающей совместно непараметрическую оценку и априорную информацию, что позволило существенно расширить круг априорных знаний и число практических задач, решаемых с помощью предложенного метода. В классе линейных оценок найдена наилучшая оценка по критерию минимума среднеквадратического отклонения. Приведены примеры, иллюстрирующие выигрыш в точности оценки. Также рассмотрена задача условного оценивания функционала в априорных условиях с известной и неизвестной дисперсией. Помимо этого, получены оптимальные оценки весового коэффициента. Для выбранных в работе условий различия в точности построенных оценок становятся несущественными при п> 36.
Выявлено влияние априорной догадки комбинированной оценки при конечном объеме наблюдений, установлена зависимость величин d, п и k друг от друга. Все выводы подтверждены численными результатами.
Проведенное имитационное моделирование показало, что для выбранных условий различия в точности построенных оценок становятся несущественными при n > 16 и d=1.5 даже при одном наблюдении. Было выявлено, что с ростом величины d уменьшается количество наблюдений, что тем самым повышает их ценность.
В результате был сделан вывод, что ценность полученных данных состоит не только в получении более точных оценок по наименьшей дисперсии и среднеквадратической ошибке для различных вероятностных характеристик, но и в сокращении объема выборки, которого достаточно для достижения заданной точности оценок. Таким образом, априорная догадка комбинированной оценки оказывает большое влияние при небольшом количестве наблюдений.
В заключении необходимо отметить, что все поставленные цели были достигнуты, а задачи выполнены и подтверждены численно. При решении поставленных задач применялись методы математического анализа, теории вероятностей, математической статистики и имитационного моделирования, что позволило получить достоверные результаты и выводы.
Выполнено построение оценки вероятностных характеристик и изучено влияния априорной информации о доле объектов, обладающих конкретным значением признака, на точность оценивания (дисперсию). Новый метод вовлечения априорной информации, базирующийся на использовании доли объектов, когда значение некоторого признака задано, дает выигрыш в виде
' Л2 M§JW- JP - P))2
° = MJy J) - -p)’ •
Также были построены комбинированные оценки с учетом априорной догадки и изучены свойства комбинированной оценки линейного функционала, учитывающей совместно непараметрическую оценку и априорную информацию, что позволило существенно расширить круг априорных знаний и число практических задач, решаемых с помощью предложенного метода. В классе линейных оценок найдена наилучшая оценка по критерию минимума среднеквадратического отклонения. Приведены примеры, иллюстрирующие выигрыш в точности оценки. Также рассмотрена задача условного оценивания функционала в априорных условиях с известной и неизвестной дисперсией. Помимо этого, получены оптимальные оценки весового коэффициента. Для выбранных в работе условий различия в точности построенных оценок становятся несущественными при п> 36.
Выявлено влияние априорной догадки комбинированной оценки при конечном объеме наблюдений, установлена зависимость величин d, п и k друг от друга. Все выводы подтверждены численными результатами.
Проведенное имитационное моделирование показало, что для выбранных условий различия в точности построенных оценок становятся несущественными при n > 16 и d=1.5 даже при одном наблюдении. Было выявлено, что с ростом величины d уменьшается количество наблюдений, что тем самым повышает их ценность.
В результате был сделан вывод, что ценность полученных данных состоит не только в получении более точных оценок по наименьшей дисперсии и среднеквадратической ошибке для различных вероятностных характеристик, но и в сокращении объема выборки, которого достаточно для достижения заданной точности оценок. Таким образом, априорная догадка комбинированной оценки оказывает большое влияние при небольшом количестве наблюдений.
В заключении необходимо отметить, что все поставленные цели были достигнуты, а задачи выполнены и подтверждены численно. При решении поставленных задач применялись методы математического анализа, теории вероятностей, математической статистики и имитационного моделирования, что позволило получить достоверные результаты и выводы.





