Введение 3
Глава 1. Критерий Фишера и виды р-значений 5
1.1. Основные понятия 5
1.2. Множество элементарных исходов и статистический критерий 7
1.3. Точные двусторонние p-значения 8
1.4. Двусторонние p-значения Monte Carlo 9
1.5. Асимптотические двусторонние p-значения 11
Глава 2. Неупорядоченные г х с таблицы сопряженности 12
2.1. Постановка задачи 12
2.2. Таблица-пример 13
2.3. Точный тест Фишера 13
2.4. Альтернативная программа 16
2.5. Сравнение результатов 16
2.6. Сравнение с fisher.test() 18
Глава 3. Определение информативных признаков 20
3.1. Алгоритм быстрого перечисления точек грассманиана 20
3.2. Алгоритм перечисления точек грассманиана с использованием диаграмм Юнга 29
3.3. Применение программы 34
Глава 4. О параметризации грассманиана 37
4.1. Связь грассманиана с симптомом и синдромом 37
4.2. Параметризация на основе рекуррентных соотношений 37
Глава 5. Приложения 41
5.1. Применение точного критерия Фишера 41
Заключение 46
Литература 47
В современном мире часто приходится сталкиваться с большим объемом данных и, в связи с этим, с возникающим вопросом об их влиянии на какой-то интересующий нас объект из этих данных. Так, например, любую историю болезни пациента можно представить в виде большого набора категориальных признаков, каждый из которых может означать симптомы болезни, применяемое лечение или последующие осложнения, тогда хочется выяснить, какое лечение при известных начальных симптомах может привести к наименее тяжелым осложнениям или даже к их полному отсутствию. Для решения этой проблемы применяется редукция размерности этих категориальных данных и выявление в них наиболее информативных признаков. В данной работе в качестве меры зависимости признаков будет рассмотрен точный критерий Фишера для данных большой размерности и его применение для решения поставленной задачи.
Цель работы. Реализация программы вычисления точного критерия Фишера и редукции размерности категориальных данных, сравнение с известными аналогами, реализация нового алгоритма перечисления точек грассманиана, вывод о важности и взаимодействии факторов на практическом примере.
Методы исследования. Для выявления зависимостей использовался точный критерий Фишера для таблиц сопряженности размером г х с. Проведена редукция размерности категориальных данных, написаны соответствующие программы на языках R и Matlab и применены на конкретных примерах.
Структура работы. Работа состоит из введения, 5 глав, заключения и библиографии. В первой главе рассматриваются основные понятия и различные виды р-значений, которые были применены при составлении соответствующей программы.
Во второй главе представляются методы реализации точного критерия Фишера для таблиц большой размерности, приводится принцип действия собственной программы, сравнивается результат её действия с известными аналогами и производится вывод о факторах, значимо влиящих на рецидивы болезни.
В третьей главе описывается алгоритм быстрого перечисления точек грассманиана и программа, составленная на базе этого алгоритма. Программа тестируется на реальных данных и, основываясь на результатах выполнения программы, делается вывод о факторах послеоперационных осложнений. Также реализуется собственный алгоритм перечисления точек грассманиана, основанный на составлении диаграмм Юнга и их сопоставлении матрицам клеточной формы.
В четвертой главе вводятся понятия симптома, синдрома и грассманиана, выводится их взаимосвязь. Представляется изучение возможности использования епособа выращивания конечных подпространств на основе рекуррентных соотношений типа Фибоначчи с помощью интегрирования дизайнов. Проверяется согласованность с флагом для такого типа параметризации грассманиана.
В пятой главе представлены и обоснованы результаты применения собственных программ, основанных на методах, исследованных в бакалаврской работе.
Результатом выполнения бакалаврской работы стало детальное изучение точного критерия Фишера для различных размерностей, составлены программы для частных случаев 2 х 2, 2 х 3, 2 х 4, 3 х 3 размерностей таблиц сопряженности, в дальнейшем обобщенные на общий случай таблиц г х с. Изучено применение грассманиана в задачах статистики, понятия симптома, синдрома, их взаимосвязь и применение. Реализован алгоритм быстрого перечисления точек грассманиана с выбором наилучшего синдрома. Рассмотрен альтернативный способ перечисления точек грассманиана, основанный на перечислении диаграмм Юнга. Обе программы применены на реальных данных и на их основе сделан вывод о значимых факторах, влияющих на исход болезни, а также выявлена взаимосвязь между исходными симптомами болезни, лечением и послеоперационными осложнениями.
1. Agresti A. Categorical data analysis // New York: Wiley. — 1990.
2. Mehta C. R., Patel N. R. — IBM SPSS Exact tests.— IBM Corporation, 2011.
3. Suzukiyz T., Aokiyx S., Murotay K. Use of primal - dual technique in the network algorithm for two - way contingency tables // Japan Journal of Industrial and Applied Mathematics. — 2004. — Vol. 22. — P. 133-145.
4. Verbeek A. A survey of algorithms for exact distributions of test statistics in r x c contingency tables with fixed margins // Computational Statistics and Data Analysis. — 1985.-Vol. 3.-P. 159-185.
5. URL: http://www.statisticshowto.com/tables/z-table/.
6. URL: http://www.sigmazone.com/binomial_confidence_interval.htm.
7. Mehta C., Patel N. A network algorithm for performing fisher’s exact test in r x c contingency tables // Journal of the American Statistical Association. -- 1983. -- Vol. 78:382. -- P. 427-434.
8. Pagano M., Halvorsen K. An algorithm for finding the exact significance levels of r x c contingency tables // Journal of the American Statistical Association. — 1981.— Vol. 78. -- P. 427-434.
9. Smith P., Forster J., McDonald J. Monte carlo exact tests for square contingency tables // Journal of the Royal Statistical Society A. -- 1996. -- Vol. 159. -- P. 309-321.
10. Yates F. Contingency tables involving small numbers and the x2 test // Journal of Royal Statistical Society, Supplementary. — 1934. — Vol. 1. — P. 217-235.
11. Ананьевская П. В. Исследование конечно-линейных статистических моделей, оптимизация и избыточность : дис. на соискание степени к. ф.-м. н. / П. В. Ананьевская ; С. - Петербургский государственный университет. — 2013. — 142 с.
12. Гриффитс Ф., Харрис Д. Принципы алгебраической геометрии. — Мир, 1982.
13. Городенцев А. Л. Алгебра-1. — МЦНМО, 2011. — С. 526.
14. Казарян М. Э. Введение в теорию когомологий. — МИАН, 2006. — Т. 3. — С. 106.
15. Алексеева Н. П. Анализ медико-биологических систем // Издательство С. - Петербургского университета. — 2012. — 185 с.