Введение 2
1. Мощность критерия многомерной дискриминации 4
2. Критерий типа Фишера 6
3. Критерий, основанный на асимптотическом распределении Xi2 7
4. Критерий Уилкса, основанный на асимптотическом распределении Xi2 .. 8
5. Применение метода стохастического моделирования для анализа
статистических характеристик критериев 9
6. Определение необходимого объема выборки для достижения достаточной
точности 10
7. Сравнение мощности различных критериев в отличающихся ситуациях 13
8. Заключение 14
9. Список используемых источников 15
Приложение №1 16
Приложение №2
В дипломной работе «Сравнение мощности различных критериев многомерной дискриминации» раскрыты результаты анализа асимптотической точности и сравнения мощности критериев многомерно дискриминантного анализа, описаны цели и концепции применения.
Мощность статистического критерия представляет собой вероятность отвержения нулевой гипотезы, когда она фактически неверна. Иначе говоря, мощность показывает, насколько вероятно в данном исследовании получить статистически значимый результат, если искомая закономерность действительно имеет место в генеральной совокупности. Отсюда следует необходимость использования наиболее мощного статистического критерия.
Для многих практик анализ мощности является важным этапом статистического исследования. Существует несколько методов анализа мощности статистических критериев, объема выборки и углубленные методы доверительного интервального оценивания.
Основными сопутствующими вопросами являются:
• Какой объем выборки должен быть использован для получения надежных оценок
• Какова вероятность того, что статистический тест будет обнаруживать экспериментальные эффекты данной величины.
Оценка объема выборки и анализ мощности являются важным этапом планирования исследования, так как без этих вычислений объем данных может быть слишком велик, либо, напротив, слишком мал, чтобы получить надежные результаты. В случае недостаточно большого объема выборки вероятность того, что проведенное вами экспериментальное исследование (массовый опрос и др.) даст надежный результат очень мала. Напротив, если объем выборки слишком большой, то время, потраченное на сбор данных и большие финансовые расходы, связанные с этим, не принесут ожидаемого эффекта.
В настоящий момент задача сравнения мощности различных критериев многомерной дискриминации находит применение в различных областях: социологии, медицине, экономике, психологии и т. д. При обработке большого объема данных стоит необходимость выявления наиболее мощного статистического критерия в отличающихся ситуациях. Этим обуславливаются надежные результаты моделирования зависимостей между отдельными признаками. Особенно полезна данная техника при анализе экспериментальных данных, когда предположение и принадлежность к определенной «испытуемой» группе влекут за собой изменение нескольких исследуемых переменных. Примером такого рода является изучение эффективности применения медицинских препаратов.
Целью данной работы является анализ асимптотической точности и сравнение мощности критериев:
• Критерий апроксимации основанной на сравнении моментов статистики и распределении Фишера
• Критерий, основанный на асимптотическом распределении Xi
• Критерий Уилкса, основанный на асимптотическом распределении Xi Все указанные критерии инварианты, т.е. не зависимы от масштаба и сдвига. В рамках данной работы решаются следующие задачи:
• Нахождение объема выборки при котором достигается достаточная точность асимптотического приближения
• Сравнение мощности различных критериев в отличающихся ситуациях
В рамках данной работы были решены следующие задачи:
1) Найден объем выборки при котором достигается достаточная точность асимптотического приближения. Получены следующие результаты для каждого из критериев:
• Для критерия аппроксимации, основанной на сравнении моментов статистики и распределении Фишера: при умеренном объеме выборки (50-100) при любом количестве признаков аппроксимация имеет достаточную точность. При увеличении выборки объема выборки ухудшается точность аппроксимации в силу того что критерий не асимптотический а основан на моментах.
• Для критерия Уилкса, основанного на асимптотическом распределении Xi : при умеренном объеме выборки (50-100) при любом количестве признаков аппроксимация имеет достаточную точность.
• Для критерия, основанный на асимптотическом распределении Xi : при увеличении признаков необходимо увеличивать объем выборки чтобы достичь приемлемую точность аппроксимации.
2) Сравнены мощности различных критериев в отличающихся ситуациях: наиболее мощным критерием в заданных условиях является критерий, основанный на асимптотическом распределении Xi2 .
Полученные алгоритмы вычисления точности критериев и сравнения мощности критериев послужат для разработки алгоритмов анализа бизнесданных в рамках информационно-аналитической системы для предприятий малого и среднего бизнеса.
1. Аренс Х., Лёйтер Ю. Многомерный дисперсионный анализ.- М.: «Финансы и статистика», 1981.-230 с.
2. Ивановский Р. Теория вероятностей и математическая статистика. Основы, прикладные аспекты с примерами и задачами в среде Mathcad. — 528 с. — (Учебное пособие). — ISBN 978-5-9775-0199-7.
3. Симушкин С.В. Многомерный статистический анализ. Часть II //Казанский Федеральный Университет
4. Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973.
5. Тутубалин В.Н. Глава 1, параграф 7. // Теория вероятностей и случайных процессов
6. George Casella, Roger L. Berger. Hypothesis Testing // Statistical Inference. — Second Edition. — Pacific Grove, CA: Duxbury, 2002. — С. 397. — 660 с. — ISBN 0-534-24312-6.