Введение 3
Глава 1. Критерий Фишера и виды р-значений 5
1.1. Основные понятия 5
1.2. Множество элементарных исходов и статистический критерий 7
1.3. Точные двусторонние p-значения 8
1.4. Двусторонние p-значения Monte Carlo 9
1.5. Асимптотические двусторонние p-значения 11
Глава 2. Неупорядоченные г х с таблицы сопряженности 12
2.1. Постановка задачи 12
2.2. Таблица-пример 13
2.3. Точный тест Фишера 13
2.4. Альтернативная программа 16
2.5. Сравнение результатов 16
2.6. Сравнение с fisher.test() 18
Глава 3. Определение информативных признаков 20
3.1. Алгоритм быстрого перечисления точек грассманиана 20
3.2. Алгоритм перечисления точек грассманиана с использованием диаграмм Юнга 29
3.3. Применение программы 34
Глава 4. О параметризации грассманиана 37
4.1. Связь грассманиана с симптомом и синдромом 37
4.2. Параметризация на основе рекуррентных соотношений 37
Глава 5. Приложения 41
5.1. Применение точного критерия Фишера 41
Заключение 46
Литература 47
В современном мире часто приходится сталкиваться с большим объемом данных и, в связи с этим, с возникающим вопросом об их влиянии на какой-то интересующий нас объект из этих данных. Так, например, любую историю болезни пациента можно представить в виде большого набора категориальных признаков, каждый из которых может означать симптомы болезни, применяемое лечение или последующие осложнения, тогда хочется выяснить, какое лечение при известных начальных симптомах может привести к наименее тяжелым осложнениям или даже к их полному отсутствию. Для решения этой проблемы применяется редукция размерности этих категориальных данных и выявление в них наиболее информативных признаков. В данной работе в качестве меры зависимости признаков будет рассмотрен точный критерий Фишера для данных большой размерности и его применение для решения поставленной задачи.
Цель работы. Реализация программы вычисления точного критерия Фишера и редукции размерности категориальных данных, сравнение с известными аналогами, реализация нового алгоритма перечисления точек грассманиана, вывод о важности и взаимодействии факторов на практическом примере.
Методы исследования. Для выявления зависимостей использовался точный критерий Фишера для таблиц сопряженности размером г х с. Проведена редукция размерности категориальных данных, написаны соответствующие программы на языках R и Matlab и применены на конкретных примерах.
Структура работы. Работа состоит из введения, 5 глав, заключения и библиографии. В первой главе рассматриваются основные понятия и различные виды р-значений, которые были применены при составлении соответствующей программы.
Во второй главе представляются методы реализации точного критерия Фишера для таблиц большой размерности, приводится принцип действия собственной программы, сравнивается результат её действия с известными аналогами и производится вывод о факторах, значимо влиящих на рецидивы болезни.
В третьей главе описывается алгоритм быстрого перечисления точек грассманиана и программа, составленная на базе этого алгоритма. Программа тестируется на реальных данных и, основываясь на результатах выполнения программы, делается вывод о факторах послеоперационных осложнений. Также реализуется собственный алгоритм перечисления точек грассманиана, основанный на составлении диаграмм Юнга и их сопоставлении матрицам клеточной формы.
В четвертой главе вводятся понятия симптома, синдрома и грассманиана, выводится их взаимосвязь. Представляется изучение возможности использования епособа выращивания конечных подпространств на основе рекуррентных соотношений типа Фибоначчи с помощью интегрирования дизайнов. Проверяется согласованность с флагом для такого типа параметризации грассманиана.
В пятой главе представлены и обоснованы результаты применения собственных программ, основанных на методах, исследованных в бакалаврской работе.
Результатом выполнения бакалаврской работы стало детальное изучение точного критерия Фишера для различных размерностей, составлены программы для частных случаев 2 х 2, 2 х 3, 2 х 4, 3 х 3 размерностей таблиц сопряженности, в дальнейшем обобщенные на общий случай таблиц г х с. Изучено применение грассманиана в задачах статистики, понятия симптома, синдрома, их взаимосвязь и применение. Реализован алгоритм быстрого перечисления точек грассманиана с выбором наилучшего синдрома. Рассмотрен альтернативный способ перечисления точек грассманиана, основанный на перечислении диаграмм Юнга. Обе программы применены на реальных данных и на их основе сделан вывод о значимых факторах, влияющих на исход болезни, а также выявлена взаимосвязь между исходными симптомами болезни, лечением и послеоперационными осложнениями.