Введение 3
Описание базы данных 5
Критерий значимости при сравнении активности генов у здоровых и страдающих заболеванием 12
Тестирование гипотезы нормальности для распределений тестовых
статистик 13
Вероятностная модель смеси для распределения тестовых статистик ... 20
Выводы и заключения 23
Литература 24
Листинг
Выявление генов ответственных за патологические изменения в организме человека является одной из важнейших задач генетических исследований. Этим объясняется актуальность исследований проводимых в дипломной работе и её практическая ценность.
Цель дипломной работы - провести статистический анализ данных экспрессии генов у страдающих заболеванием Альцгеймера и здоровых пациентов с целью построения вероятностных моделей тестовых статистик, что позволит оценить долю генов ответственных за заболевание и оценить их вероятностные характеристики.
Обычно показателем ответственности гена за патологию является его повышенная экспрессия (значение активности).
Значение экспрессии наблюдаем в опытах характеризует скорость передачи генетической информации от ДНК к РНК.
Для получения значения экспрессии используют так называемые чипы содержащие до 100 тысяч маркеров исследуемых генов.
На чип заливается полученный препарат расщепленных ДНК исследуемого индивидуума. Дальнейшая обработка чипа позволяет фиксировать свечение каждого маркера и замеряется интенсивность этого свечения, которая характеризует активность генов. Различные процедуры для выявления генов ответственных за патологию представлены в публикациях [2]¬[4].
Для выполнения дипломной работы располагали данными экспрессии 48784 генов замеренной у 10 здоровых и 7 страдающих болезнью Альцгеймера. Препараты для исследования брались из крови и кожи пациентов.
Для каждого гена вычислялись тестовых статистики двух выборочных критериев Стъюдента и Вилкоксона.
Полученные четырем базы данных тестовых статистик, каждая размером 48784, являлись исходным материалом для предварительного статистического описания этих данных, построения их вероятностной модели и построения гарантийных процедур выявления гиперактивных генов.
Отсутствие генов ответственных за болезнь в исходных данных говорит о том, что распределение статистик Стьюдента можно аппроксимировать стандартным нормальных распределением т.е. их функция распределения есть Ф(х), однако наличие некоторой доли п гиперактивных генов влечет, что статистики Стьюдента в этом случае имеют не центральное распределение Стьюдента и если параметр нецентральности этого распределения не слишком велик, то распределение можно аппроксимировать нормальным распределением со средним равным параметру нецентральности и дисперсией равной единице. Аналогичное заключение можно сделать и для статистики Вилкоксона.
Основной результат дипломной работы - оценка параметров вероятностной модели для тестовых статистик соответствующих четырем базам данных. С помощью критерия хи-квадрат показано, что модель нормального распределения неприемлема для данных тестовых статистик. Рассмотрена модель основанная на смеси нормальных законов, которая, как показывает, критический уровень значимости статистики хи-квадрат согласуется с выборочными данными. В рамках этой модели произведена оценка доли генов ответственных за болезнь и произведена оценка вероятностных характеристик тестовых статистик.
Проведенный статистический анализ представленной базы данных по экспрессии генов позволяет сделать следующие выводы:
1. Гипотезы нормальности распределения тестовых статистик отвергается, поскольку все p-значения свалены в область малых значений;
2. Значения статистики Хи-квадрат отвергают модель нормального распределения для данных тестовых статистик Стъюдента и Вилкоксона - распределение этих статистик обладают тяжелым правым хвостом, что указывает на наличие гиперактивных генов;
3. Рассмотрена модель основанная на смеси нормальных законов, которая, как показывает критический уровень значимости статистики хи-квадрат, плохо согласуется с выборочными данными;
4. Получены оценка параметров вероятностной модели для тестовых статистик соответствующих четырем базам данных.
В рамках этой модели произведена оценка доли генов ответственных за болезнь и произведена оценка вероятностных характеристик тестовых статистик.
Заключение - проведенный статистический анализ данных экспрессии генов в рамках модели Б. Эфрона[1] указывает на плохое согласие этой модели со значениями тестовых статистик. Генетикам следует обратить внимание, что хорошее согласие модели Б. Эфрона при исследовании экспрессии генов ответственных за онкологическое заболевание предстательной железы, требует значительной модификации в случаем модели Альцгеймера.
1. Efron B. (2010). Large-Scale Inference. Empirical Bayes methods for estimation, testing and prediction. Institute of Mathematical Statistics (IMS) Monographs.
2. Benjamini Y. and Hochberg Y. (1995). Controlling the false rate: A practical and powerful approach to multiple testing.
3. Симушкин Д.С., Симушкин С.В. и Володин И.Н. (2015). D- гарантированная дискриминация по статистическим гипотезам: обзор результатов и нерешенных вопросов.
4. Storey J.D. (2007) The optimal discovery procedure: a new approach to simultaneous significance testing.