ВВЕДЕНИЕ 3
Глава 1. МЕТОДЫ МНОЖЕСТВЕННОГО ТЕСТИРОВАНИЯ 6
1.1. Метод Бонферрони и метод Холма 6
1.2. Процедура B-H и FDR 10
Глава 2. МОДИФИКАЦИЯ ПРОЦЕДУРЫ B-H 12
2.1. Определение распределения тестовых данных 12
2.2. Процедура B-H и FDR 17
2.3. Построение модифицированных процедур B-H 20
2.4. Проверка на реальных данных 25
Заключение 26
Список использованной литературы 27
Приложение А 28
Приложение Б 31
Приложение В 32
Приложение Г
В практике статистического анализа часто возникает ситуация, когда на одном и том же наборе данных выполняется проверка большого числа гипотез. Задача множественной проверки гипотез возникает в самых разнообразных областях научной деятельности, таких как генетика (анализ данных, получаемых при помощи технологии микрочипов), протеомика (данныемасс-спектрометрии), нейробиология (анализ изображений мозга), экология, астрофизика, и других.
Множественная проверка гипотез — класс задач прикладной статистики, возникающий при необходимости одновременного построения семейства статистических выводов. В каждое такое утверждение, представляющее собой вывод об отвержении гипотезы при проверке статистических гипотез, изначально закладывается возможность ошибки (ложного отклонения гипотезы, ошибки первого рода). Вероятность такой ошибки ограничивается неким достаточно малым значением — уровнем значимости а (например, часто берут а = 0.05), выражающим степень неуверенности в справедливости заключения. При одновременном построении т заключений это приводит к тому, что вероятность совершения хотя бы одной такой ошибки оказывается ограничена сверху величиной вида 1 — (1 — а)т, которая является недопустимо большой уже для достаточно малых т, то есть, с достаточно большой вероятностью рассматриваемое множество выводов содержит ошибочные выводы. Для устранения этого эффекта, называемого эффектом множественных сравнений, разработан ряд статистических техник. Процедура принятия или отклонения гипотез перестраивается таким образом, чтобы некая величина, являющаяся многомерным обобщением ошибки первого рода, была ограничена сверху наперёд заданным числом.
Высокий интерес к анализу данных при условии большого числа гипотез обуславливает выбор дипломной работы. Работа является актуальной, так как вопрос недостаточно проработан и на сегодняшний день не существует универсального метода для решения этой проблемы.
Исследуемая тема является полезной, поскольку позволяет уменьшить долю ложных принятий нулевых гипотез, так как в некоторых научных исследованиях именно доля ложных принятий представляет наибольший интерес.
Целью данной дипломной работы является исследование процедуры Бенджамина-Хочберга и ее модификаций, а также улучшение характеристики FNR - доли ложных принятий.
Для достижения поставленной цели:
• проведен анализ группы методов множественной проверки гипотез;
• проведен анализ методов контроля ожидаемой доли ложных отклонений гипотез;
• получены тестовые данные для использования в исследовании;
• проверена процедура Бенджамина-Хочберга;
• скорректирована процедура Бенджамина-Хочберга;
• проверены модификации процедуры Бенджамина-Хочберга на тестовых данных;
• сделаны выводы о модифицированных процедурах Бенджамина- Хочберга;
• получены результаты работы модифицированных процедур Бенджамина-Хочберга на реальных данных.
Дипломная работа состоит из введения, 2 глав, заключения, списка литературы из 8 источников и приложений. Общий объем работы 33 страниц.
В первой главе даются основные определения и понятия контроля ожидаемой доли ложных отклонений и принятий гипотез, систематизируются существующие методы контроля ожидаемой доли ложных отклонений и принятий гипотез.
Во второй главе подробно расписан и аргументирован применяемый метод контроля ожидаемой доли ложных отклонений и принятий гипотез . Представлена оценка количества гипотез Н0, построение ее доверительного интервала. Обосновывается несостоятельность процедуры Бенджамина- Хочберга. Описывается скорректированная процедура Бенджамина-Хочберга и проверка ее на реальных данных.
При написании дипломной работы изучались научные работы и статьи, описывающие исследуемую тему, периодические издания по данной теме.
В ходе исследования были реализованы процедуры B-Н с различными а в пакете Wolfram Mathematica, при количестве гипотез m = 100000 запуск
процедуры n=1000 занимал около 15 минут, при увеличении m и n процедура работала намного дольше, в связи с этим, количество m ограничивалось 100000, n = 1000.
Проведенные эксперименты показали, что 1 и 2 модифицированные процедуры B-H влекут уменьшение FNR по сравнению с классической процедурой B-H.
В 1 модифицированной процедуре B-H значения FDR при различных m и n лучше, чем во 2 модифицированной процедуре B-H.
На реальных данных классическая процедура B-H и 1 модифицированная процедура B-H позволяет сделать 15 «открытий», 2 модифицированная процедура B-H позволяет сделать 16 «открытий».
На основании вышеизложенного, обе модифицированные процедуры B-H рекомендованы к использованию
1. Воскобойников Ю.Е., Гочаков А.В., Колкер А.Б. Фильтрация сигналов и изображений: Фурье и вейвлет алгоритмы (с примерами в mathcad), 2010.
2. Abramovich F., Benjamini Y., Donoho D., Johnstone I. Adapting to Unknown Sparsity by controlling the False Discovery Rate, 2000
3. Benjamini Y., Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing, 1995.
4. Benjamini Y., Yekutieli D., The control of the false discovery rate in multiple testing under dependency, 2001
5. Bonferroni C. E., Teoria statistica delle classi e calcolo delle probability, Pubblicazioni del R Istituto Superiore di Scienze Economiche e Commerciali di Firenze, 1936.
6. Bradley E. Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing and Prediction, 2012.
7. Holm S. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 1979.
8. Soric B. Statistical «Discoveries» and Effect-Size Estimation. Journal of the American Statistical Association, 1989.