Введение 5
Глава 1. Симптомный анализ 7
1.1. Симптом и супер-симптом 7
1.2. Полиномы Жегалкина 8
1.3. Алгоритм отбора 8
1.4. Симптомный анализ прикладных данных из генетики 9
1.4.1. Описание эксперимента 10
1.4.2. Описание результатов 12
Глава 2. Модель двумерного гамма-распределения 15
2.1. Обоснование модели 15
2.2. Случай двумерного гамма-распределения 16
2.3. Плотность двумерного гамма-распределения 17
2.4. Оценка параметров по методу моментов 19
2.5. Построение доверительных интервалов 19
2.6. Применение модели на прикладных данных из генетики 20
2.6.1. Описание эксперимента 20
2.6.2. Описание результатов 21
2.7. Применение модели на прикладных данных из медицины 22
2.7.1. Описание эксперимента 22
2.7.2. Описание результатов 24
2.8. Применение симптомного анализа и модели гамма-распределения на прикладных данных из медицины 28
2.8.1. Описание эксперимента 28
2.8.2. Описание результатов 29
Глава 3. Итерционно-частичный метод дискриминантного анализа для неполных данных 34
3.1. Постановка задачи 34
3.2. Алгоритм анализа 35
3.3. Описание эксперимента 35
3.4. Описание результатов 36
Заключение 40
Список литературы 42
Статистическая задача сравнения одной зависимой переменной с набором нескольких независимых дихотомических переменных является актуальной, особенно, когда влияние различных факторов на зависимую переменную изучается отдельно и все возможные взаимосвязи незначительны. Становится очевидным, что отдельных факторов зачастую недостаточно для описания группы риска. В данной ситуации, в случае учитывая множества факторов, возникает проблема уменьшения размерности, которая означает поиск нескольких функций факторов с наименьшей потерей информации. Модели таких функций могут быть разными. В рамках данной работы мы рассматриваем и применяем модели симптом-синдромные (Алексеева Н.П. 2013). Для данных моделей предикат выражается в виде линейных комбинаций над полем F2, которые образуют конечное проективное пространство. Если построить конечное проективное пространство для 2к — 1 различных невырожденных умножений без повторений, то получим полиномы Жегалкина, которые и описывают все виды логических функций - все возможные комбинации логических операций этих к переменных: сложение, умножение, отрицание.
Известно, что каждая логическая функция может быть представлена в форме полинома Жегалкина уникальным образом, поэтому, используя их для итерации, можно найти логическую функцию, которая наилучшим образом описывает группу риска.
К сожалению, существует проблема в сложности расчетов, которая приводит к вводу ограничения: будем рассматривать порядок 3 — 4 зависимых факторов. Отметим, что этого порядка уже достаточно для определения группы риска, которая описывается логической комбинацией факторов.
Данный метод был изучен и практически применен в главе 1 для выявления генетических факторов риска у пациентов с синдромом алкогольной зависимости, получающих терапию алкогольной зависимости (Санкт-Петербургский психоневрологический научно-исследовательский институт им. В.М. Бехтерева). При анализе симптомов выживания использовался тест Э. Уилкоксона Э. А. Гехана (1975).
В рамках анализа данных, описанных в главе 1, не удалось выявить никаких значимых отличий между индексом тяжести зависимости (психиатрический статус, употребление наркотиков) и генетическими факторами у пациентов с синдромом алкогольной зависимости. В связи с этим, появилась потребность обратиться к двумерному гамма- распределению для проверки того, а нет ли значимых отличий в динамике в разных группах, данному подходу посвящена глава 2.
Следующим шагом возникла идея объединить оба подхода к исследованию данных и совместить их, что было выполнено во второй главе в разделе 2.8: сначала посредством перебора всех возможных симптомов и суперсимптомов найти тот, которые согласно модели двумерно гамма-распределения даст значимые отличия в разных группах в динамике (в нашем случае динамике по времени выбывания из программы).
Завершающая часть работы (глава 3) посвящена еще одной популярной проблеме - анализ неполных данных. В работе рассмотрена идея анализа неполных данных без удаления или замены пропусков. Идея предлагаемого метода заключается в том, чтобы вместо одной дискриминантной функции, построенной сразу по всем независимым переменным, рассмотреть совокупность наиболее значимых частичных дискриминантных функций. Откуда возникла задача выражения полной дискриминантной функции через частные.
В данной работе были рассмотрены математические методы исследования прикладных данных.
Работу можно разделить на 3 части:
1. Симптомный, супер-симптомный метод показал, что в случае многомерного анализа данных, когда отдельные факторы незначительны, можно выявить группу риска с помощью специальной комбинации факторов. С помощью статистического пакета Rбыл реализован алгоритм отбора сочетаний генов, влияющих на результат выполнения программы лечения, а также набор функций, который позволяет автоматизировать разработанный метод исследования. Программа применима к любым категориальным данным, что делает ее полезным приложением в генетике и других сферах.
Программа уже была использована в рамках гранта на изучения связи между генетическими факторами больных с алкогольной зависимостью и их лечения медицинским препаратом.
На базе полученных результатов в соавторстве с научным руководителем Алексеевой Н.П. и аспиранткой 3 курса AL-JUBOORI, Fatema Saik подготовлены и отправлены в публикацию 3 статьи.
С результатами проведенного исследования успешно состоялось выступление на 10th International Workshop on Simulation and Statistics. Тезисы были успешно опубликованы и представлены слушателем. Слушатели отметили интересный подход к исследованию данных, а так же обратили внимание на новизну предлагаемого решения.
2. Применение двумерного гамма-распределения к анализу данных. Данный подход показал, что в случае, когда отсутствую значимые различия между группами по средним, еще не означает, что различий нет вовсе. Данный метод позволяет проверить для каких подмножеств выборки тот или иной фактор является значимым и при необходимости определить направление изменения показателей с течением времени, в отличие от установки значимого влияния посредством других известных методов проверки однородности.
С помощью статистического пакета Rбыла выполнена проверка согласия с гамма распределением, выполнена проверка однородности параметров двумерного гамма-распределения, оценка параметров гамма-распределения разными способами, исследована плотность распределения и получены доверительные интервалы для оценок параметров распределения, значимость и направленность изменения признаков в зависимости от различных факторов.
Программа была использована для поиска связи между психометрическими признаками и генетической палитрой больных с алкогольной зависимостью.
3. В связи с тем, что неполнота данных обычно обусловлена объективными факторами и осложняет решение задачи построения наилучшего линейного предсказания зависимой переменной У по комплексу независимых переменных Х1,..., Хп. Идея предполагаемого метода заключается в том, чтобы вместо одного выражения дискриминантной функции, построенного сразу по всем переменным (полное предсказание), рассматривать совокупность наиболее значимых частичных предсказаний, построенных по разным подмножествам независимых переменных. Отсюда возникает задача выражения полного предсказания через частичные, результаты исследования которой приведены в рамках данной работы.
Далее планируется завершить аналитическое представление полной дискриминантной функции через частные, а также представить метрику различия для сравнения частных дискриминантных функций и полной.
1. Алексеева Н. П. Анализ медико-биологических систем. Реципрокность, эргодичность, синонимия. — Издательство С.-Петербурского университета, 2012. — 184 с.
2. Бородин А. Н. Элементы теории вероятностей и математической статистики. — Издательство «Лань», 1999. — 224 с.
3. Е.А. Gehan (1975). Statistical methods for survival time studies. In Cancer Therapy: Prognostic Factors and Criteria. M. J. Staquet, ed., pages 7-35. New York: Raven Press.
4. N. Alexeyeva, P. Gracheva, B. Martynov, I. Smirnov (2009). The finitely geometric symptom analysis in the glioma survival. In The 2nd International Conference on BioMedical Engineering and Informatics (BMEI09). Okt.2009., page DOI: 10.1109/ВМEl.2009.5305560. China.
5. Mathai Arak M, Moschopoulos Panagis G. On a multivariate gamma // Journal of Multivariate Analysis. — 1991. — Vol. 39, no. 1. — P. 135-153.
6. N.P. Alexeyeva, E.P. Skurat. Symptom analysis of multidimensional categorical data with application in genetics In The 10th International Workshop on Simulation and Statistics. Sep.2019., page 89 . Salzburg, Austria.
7. N.P. Alexeyeva, F.S. Al-Juboori, E.P. Skurat. Symptom analysis of multidimensional categorical data with applications // Periodicals of Engineering and Natural Sciences. — 2020. — Vol. 8, no. 3. — P. 1517-1524.