Тема: СВОЙСТВА ПРОЦЕДУР МНОЖЕСТВЕННОГО ТЕСТИРОВАНИЯ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Тестовые статистики Статистика Вилкоксона Статистика Уэлча Множественное тестирование
Теоретическое описание процедур множественного тестирования
Процедура Бенджамини-Хочберга d-апостериорный подход
Применение d-апостериорного подхода к реальным данным
Вероятностная модель и оценка параметров
Данные по пациентам с лейкозом
Данные по пациентам с неврологическим заболеванием
Анализ вероятностных моделей методом Монте-Карло
Сравнение процедуры Бенджамини-Хочберга с d- гарантийным критерием
Проверка трех гипотез
Заключение
Список литературы
Приложения
📖 Введение
Близкий по смыслу подход, который можно применять для задач множественного тестирования, разработан на кафедре математической статистики КФУ [1], называется d-апостериорным подходом и представляет собой продолжение байесовского подхода. Другими словами, для его применения необходимо построение вероятностной модели распределения наблюдений и вероятностной модели распределения интересующего нас параметра.
Проблема множественного тестирования касается многих сфер жизни современного общества. Актуальность анализа свойств процедур множественного тестирования объясняется высокой заинтересованностью в решении подобных проблем среди медицинских работников, особенно среди специалистов, занимающихся онкологическими и фармакологическими исследованиями. В этих исследованиях обычно требуется проанализировать течение какой-либо болезни или оценить эффективность нового лекарственного средства по результатам измерений большого числа характеристик относительно небольшой группы пациентов.
В данной работе сравнительный анализ процедуры Бенджамини- Хочберга и оптимальной d-гарантийной процедуры планировалось провести на примере двух совокупностей данных. Первая группа данных была взята из статьи T.R. Golub [2]. Данные представляют собой результаты анализов костного мозга и периферической крови пациентов, с диагностированным заболеванием лейкоз. По некоторому вспомогательному признаку их распределили по типу заболевания на две группы: ОМЛ (острый миелоидный лейкоз - п 1 = 3 8 пациентов), ОЛЛ (острый лимфобластный лейкоз - п 2 = 3 4 пациентов). Таким образом, у каждого пациента было обследовано 1647 генов. Для каждого из генов требовалось принять решение о степени его влияния на тип лейкоза. Вторая совокупность данных содержит измерения экспрессии 48784 генов у 10 больных со специфическим неврологическим заболеванием и 7 здоровых пациентов. Здесь также необходимо принять решение о влиянии экспрессии каждого гена на разделение по группам.
В практических исследованиях наиболее популярные методы сравнения двух групп основаны на статистике Вилкоксона или на статистике Стью- дента. В настоящее время на практике статистика Стьюдента применяется все реже, поскольку трудно соблюсти условия её реализации. Поэтому в данной работе изучается аналог этой статистики, называемый статистикой Уэлча. Для разработки процедур множественного сравнения в d-апостериорном подходе необходимо обладать информацией о типе распределения рассматриваемых статистик как при нулевой гипотезе, так и при альтернативе. Поэтому на первом этапе наших исследований были получены утверждения об асимптотическом распределении этих статистик. Как и ожидалось, обе они имеют асимптотически нормальное распределение. Эти утверждения, были получены с помощью метода стохастического моделирования, а так же с помощью популярного дельта-метода получения асимптотических выводов о распределении статистик.
Указанные асимптотические утверждения применяются для построения статистических критериев, гарантирующих величину d-риска первого рода. Для сравнения к тем же данным применяется процедура Бенджамини- Хочберга (с теми же тестовыми статистиками) и проводится сравнение полученных результатов с d-апостериорным подходом. Показано, что оптимальная процедура в d-апостериорном подходе имеет большую вероятность отвержения нулевой гипотезы.
✅ Заключение
Второй процедурой, изученной в данной работе, является d-гарантийная процедура, разработанная в рамках d-апостериорного подхода на кафедре математической статистики КФУ.
Сравнительный анализ процедуры Бенджамини-Хочберга и оптимальной d-гарантийной процедуры планировалось провести на примере двух совокупностей данных. Первая совокупность данных представляет собой результаты анализов пациентов, больных лейкозом и разделенных по типу заболевания на две группы. Вторая совокупность данных представляет собой результаты анализов пациентов с неврологическим заболеванием и здоровых пациентов. По вышеупомянутым наборам данных вычислялись тестовые статистики Вилкоксона и Уэлча, поскольку именно на этих статистиках основываются методы, используемые для сравнения двух групп.
В первой главе для разработки процедур множественного сравнения в d-апостериорном подходе были получены утверждения об асимптотическом распределении статистик Вилкоксона и Уэлча при нулевой гипотезе и при альтернативе. Методом стохастического моделирования, а так же дельтаметодом получения асимптотических выводов о распределении статистик было доказано, что обе они имеют асимптотически нормальное распределение.
Во второй главе после построения вероятностной модели (8) проводилась проверка соответствия этой модели реальным данным. На основе этой проверки было выявлено, что данные по пациентам с лейкозом хорошо описываются моделью (8). Проверка осуществлялась критерием согласия Колмогорова, для наглядности соответствия данных модели строились графики (рис. 1, рис. 2) сравнения эмпирической функции распределения (по вычисленным статистикам) и оценочной функции распределения (9). При применении того же критерия к данным по пациентам с неврологическим заболеванием было установлено, что эмпирическое распределение тестовых статистик не соответствует предполагаемой модели (8). Графики p-значений (рис. 3, рис. 4) позволил выдвинуть предположение о том, что данные пациентов с неврологическим заболеванием были получены не случайным образом, поэтому дальнейшие исследования производились только на первом наборе данных (по пациентам с лейкозом).
Анализ вероятностной модели (8) методом Монте-Карло показал, что для сгенерированных данных имеется высокий разброс ошибок, который может быть объяснен как низкой точностью рассматриваемого метода оценивания, так и несоответствия модели генерируемым данным.
Статистические критерии, гарантирующие величину d-риска первого рода, строились на основе асимптотических утверждений, сделанных в первой главе, после чего применялись к данным. Далее к тем же данным применялась процедура Бенджамини-Хочберга, после чего проводилось сравнение полученных результатов с d-апостериорным подходом. Сравнение результатов показало, что при применении d-гарантийной процедуры для критерия, основанного на статистике Уэлча, отвергается в 2.5 раза больше нулевых гипотез, чем при применении процедуры Бенджамини-Хочберга, а для критерия, основанного на статистике Вилкоксона, примерно в 4.5 раза. Таким образом, оптимальная процедура в d-апостериорном подходе имеет большую вероятность отвержения нулевой гипотезы.
В заключение рассматривалась задача различия трех гипотез. Было выявлено, что наилучший выбор критических констант С±, С 2 связан с решением минимаксной задачи. Для данных о пациентах с лейкозом и статистики Уэлча было сформулировано утверждение, в котором были найдены константы, обеспечивающие совпадение значений всех трех характеристик надежности. Также было изучено поведения апостериорной вероятности трех гипотез.



