Актуальность темы Одна из проблем современного анализа данных - поиск ведущих факторов, определяющих поведение системы. Актуальной и практически значимой является задача определения ведущих факторов и их комплексов, оказывающих максимальное влияние на живые системы, например, влияние комплекса факторов среды обитания на природные популяции животных и растений, факторов риска на здоровье населения.
Одним из инструментов для количественной оценки взаимосвязей в сложной системе (например, в системе «среда обитания - здоровье населения») являются методы многофакторного статистического анализа, которые позволяют учитывать одновременное влияние на систему большого числа факторов. Такие методы позволяют разрабатывать новые методики и алгоритмы построения новых многофакторных моделей системы и, на их основе, интерпретировать поведение системы (актуальная задача современной науки). Важным условием эффективной интерпретации поведения системы является применение предметно-ориентированного подхода, все этапы которого поддаются осмыслению специалистом в предметной области и дают результаты, важные для академической и практической науки (например, для экологии человека и биологии). Только в этом случае результатом моделирования являются новые знания о системе, а не набор чисел, не имеющих реального смысла. Разработка такого предметно-ориентированного подхода является актуальной задачей, решение которой позволит повысить эффективность управления сложными системами (например, управления здоровьем населения в связи с воздействием комплекса факторов окружающей среды).
Цель работы Разработка методических подходов к статистическому моделированию многофакторного воздействия на живую систему при наличии корреляций между факторами; применение методологии моделирования для описания воздействия комплекса факторов риска на здоровье населения.
Основные задачи работы
1. Разработка методов корректировки однофакторных эффектов, искаженных взаимосвязями между факторами.
2. Разработка методики анализа двухфакторных эффектов с оценкой степени неаддитивности.
3. Разработка методики выявления комплекса факторов (число факторов больше двух), оказывающих наибольшее влияние на систему.
4. Применение разработанных методик для изучения взаимосвязей между факторами риска и здоровьем детей Екатеринбурга.
Научная новизна исследования
1. Для систем с бинарным откликом и категоризованными факторами разработана новая комплексная методология моделирования эффектов разной размерности (от однофакторных до 3-4 факторных) с явным учетом взаимосвязей между факторами, определяющими поведение системы.
2. На основе идеологии иерархической классификации (деревья классификации) предложена новая методика построения и анализа многофакторных моделей взаимосвязей факторов риска и здоровья населения.
3. С использованием разработанной методологии впервые проведено комплексное исследование взаимосвязей показателей здоровья детей-дошкольников Екатеринбурга с набором экологических и социальных факторов риска потери здоровья; впервые определены сочетания 3-4 факторов риска, оказывающих наиболее неблагоприятное влияние на состояние детей.
4. Разработаны и протестированы вычислительные методы анализа взаимосвязей факторов риска и здоровья населения. На их основе разработан комплекс программ, включающий:
- программу автоматического анализа двухфакторных эффектов для изучения эффектов неаддитивности;
- программы создания выборок методом «случай-контроль» с различными вариантами создания копий;
- программу пошагового полуавтоматического построения леса деревьев классификации.
Практическая значимость работы Методика построения и анализа многофакторных статистических моделей, описывающих взаимосвязи произвольного бинарного отклика с комплексом категоризованных факторов, используется в учебном процессе в Уральском федеральном университете при чтении курсов лекций «Моделирование» и «Методы обработки биомедицинских данных» (имеется акт внедрения).
Факторы риска и их сочетания, оказывающие максимальное влияние на распространенность заболеваний у детей Екатеринбурга, найденные в результате комплексного анализа, используются для разработки научно-обоснованных программ по сохранению и восстановлению здоровья детей (управление здоровьем).
Результаты переданы специалистам Екатеринбургского Центра детской экопатологии и используется в практике работ Центра (имеется акт внедрения).
Работа выполнена при поддержке РФФИ (грант № 07-04-96120) и Президиума РАН (проект ФМ-Н № 09-П-2-1027). В настоящее время результаты работы используются при выполнении междисциплинарных исследований УрО РАН (проект 12-М-24-2016).
Положения, выносимые на защиту
1. Предложенный вариант пошагового построения деревьев классификации позволяет получить эффективные и наглядные решающие правила для разделения объектов на несколько классов.
2. Искажения эффектов «низкой размерности», обусловленные коррелированностью факторов, требуют корректировки. Корректировка может быть выполнена предложенными в диссертации различными методами, среди которых наилучшими свойствами обладает «метод маргинальных частот». Широко используемый в экологии человека и биологии метод логистической регрессии в ряде случаев дает неудовлетворительные результаты.
3. Реально наблюдаемые в г. Екатеринбурге уровни загрязнения среды обитания человека в сочетании с социально-экономическими факторами риска предметно и статистически значимо повышают распространенность заболеваний органов дыхания, системы кровообращения, болезней костно-мышечной системы и соединительной ткани, расстройств поведения у детей дошкольного возраста.
4. При совместном действии комплекса факторов риска на детей Екатеринбурга имеют место сильные сверхаддитивные эффекты.
Личный вклад автора Вошедшие в диссертацию результаты получены автором совместно с научным руководителем, профессором А.Н. Вараксиным. Диссертант провел системный анализ взаимосвязей показателей здоровья детского населения с факторами риска на основе идеологии иерархической классификации, выявил комплексы факторов риска, наименее благоприятные для здоровья детей, разработал методы коррекции эффектов, искаженных коррелированностью факторов.
Реализация и апробация работы Основные положения диссертационной работы были представлены на Всероссийской научной конференции «Влияние загрязнения окружающей среды на здоровье человека», Новосибирск, 2002; X Международном экологическом симпозиуме «Урал атомный, Урал промышленный», Екатеринбург, 2002; научно-практической конференции «Здоровье детей и экология», Екатеринбург, 2003; Всероссийской научно-практической конференции «Современные технологии исследований в гигиене и экологии», Санкт-Петербург, 2004; XI Всероссийском конгрессе «Экология и здоровье человека», Самара, 2006; Пленуме научного совета по экологии человека и гигиене окружающей среды, конференции 2007; 2008;
больших городов и промышленных зон». Санкт-Петербург, 2009; 23rd annual Conference of International Society for Environmental Epidemiology. Barcelona (Spain), 13-16 September 2011.
Публикации Основное содержание диссертации представлено в 20 публикациях, из них 7 в журналах из списка ВАК.
Объем и структура работы Диссертация состоит из введения, четырех глав, выводов, списка литературы, содержит 125 страниц основного текста, 33 таблицы, 36 рисунков и одно приложение. Список литературы включает 156 источников и содержит 16 страниц.
1. На основе идеологии иерархической классификации разработана новая методика статистического моделирования многофакторного воздействия на систему при наличии корреляций между факторами, позволяющая интерпретировать результаты исследований, в частности, в области экологии человека и биологии.
2. Разработан пошаговый алгоритм метода «Деревья классификации» - новая версия известного метода классификации применительно к решению задач экологии человека и биологии.
3. Проведены комплексные исследования влияния факторов риска различной природы (загрязнение окружающей среды, социально-экономические факторы) на здоровье детей-дошкольников Екатеринбурга с применением новых технологий математического моделирования.
4. Предложен ряд новых методов коррекции эффектов низкой размерности (в первую очередь, однофакторных эффектов), искаженных взаимосвязями между факторами: численный метод линейной коррекции (безусловная коррекция), метод, основанный на подборе копий в идеологии «Случай-контроль», коррекция методом маргинальных частот (условная коррекция). Выполненные модельные расчеты показали, что наилучшими корректирующими свойствами обладает метод маргинальных частот. Показано, что широко используемый метод логистической регрессии, будучи примененный для коррекции однофакторных эффектов, дает неудовлетворительные результаты. Показана предметная значимость коррекции в задачах экологии человека и биологии.
5. Для построения и анализа моделей создан комплекс программ, включающий следующие программы:
- программа автоматического анализа двухфакторных эффектов методом полного перебора с выбором наиболее значимых парных эффектов и перекрестных членов;
- программа создания копий в методе «Случай-контроль» с ориентацией на группу с наименьшей численностью объектов исследования и с сохранением параметров исходной выборки;
- программа, реализующая пошаговый полуавтоматический алгоритм построения леса деревьев классификации.
6. Проведено комплексное исследование влияния факторов риска различной природы (загрязнение окружающей среды, социально-экономические факторы) на здоровье детей-дошкольников Екатеринбурга. Найдены факторы и их комплексы, оказывающие наибольшее негативное влияние на распространенность заболеваний органов дыхания и системы кровообращения. Разработана методика нахождения социально-экономических мер, позволяющих компенсировать неблагоприятное действие загрязнения окружающей среды на здоровье детей. Например, выдвинута гипотеза, что негативное действие загрязнения атмосферного воздуха на детей г.Екатеринбурга может быть компенсировано, в ряде случаев, сменой газовой плиты в квартире на электрическую или увеличением физической активности ребенка.
7. Методология комплексного анализа используется в курсах лекций для студентов Уральского федерального университета (имеется акт внедрения). Результаты комплексного анализа внедрены и используются в практике работ Центра детской экопатологии, г.Екатеринбург (имеется акт внедрения).
1. Константинова Е.Д., Вараксин А.Н. Системный подход в изучении влияния комплекса факторов риска на показатели здоровья детей // Информатика и системы управления. 2010. № 2(24). С.186-189.
2. Константинова Е.Д., Вараксин А.Н. Метод «Деревья классификации» в задачах оценки комплексного влияния факторов риска на здоровье детей // Экологические системы и приборы (Москва). 2009. № 10. С.51-54.
3. Константинова Е.Д., Вараксин А.Н. Разработка методики нахождения факторов, компенсирующих неблагоприятное действие загрязнения окружающей среды на здоровье человека // Экологические системы и приборы (Москва). 2010, № 5. С.35-38.
4. Вараксин А.Н., Константинова Е.Д. Эффекты взаимной коррелированности факторов риска при изучении связей «Здоровье населения - факторы риска» // Экологические системы и приборы (Москва). 2009. № 2. С.9-13.
5. Вараксин А.Н., Живодеров А.А., Константинова Е.Д., Жовнер И.В. Применение метода корреляционных плеяд в задачах медико-экологического мониторинга // Экологические системы и приборы (Москва). 2009. № 5. С.51¬54.
6. Антонов К.Л., Константинова Е.Д., Вараксин А.Н. Воздействие выбросов автотранспорта на здоровье детей Екатеринбурга // Гигиена и санитария (Москва). 2007. №5. С. 28-32.
7. Константинова Е.Д., Вараксин А.Н., Живодеров А.А., Жовнер И.В. Эколого-социальные факторы и здоровье детей промышленного центра // Уральский медицинский журнал (Екатеринбург). 2007. №11(39). С. 48-52.
Остальные публикации
8. Константинова Е.Д., Вараксин А.Н. Методология системного анализа взаимосвязей между факторами риска и здоровьем населения в задаче устойчивого развития // Международный журнал. Устойчивое развитие: наука и практика (Дубна). 2010. №2(5) ст.3. С. 68-85.
9. Константинова Е.Д., Антонов К.Л., Вараксин А.Н., Чуканов В.Н. Алгоритм анализа влияния факторов окружающей среды на распространенность болезней у детей // Материалы Всероссийской научно-практической конференции, Санкт-Петербург, Военно-медицинская академия, 2004. С.24-25.
10. Константинова Е.Д., Антонов К.Л., Вараксин А.Н. Влияние выбросов автотранспорта на здоровье детей промышленного города // Сборник материалов Пленума научного совета по экологии человека и гигиене окружающей среды, Москва, НИИ экологии человека и гигиены окружающей среды им. А.Н. Сысина, 2006.
11. Константинова Е.Д. Качество питьевой воды и здоровье детей-дошкольников крупного города // Вестник Российской военно-медицинской академии. 2008, № 3(23), приложение 2, часть 2, с.448-449.
12. Константинова Е.Д., Вараксин А.Н., Антонов К.Л. Влияние выбросов автотранспорта на здоровье детей (болезни костно-мышечной системы и психические расстройства и расстройства поведения) // Там же, часть 1, с.134-135.
13. Константинова Е.Д., Вараксин А.Н. Применение метода деревьев классификации при анализе связей «Факторы среды обитания - здоровье населения // Материалы V международной конференции «Экологические и гидрометеорологические проблемы больших городов и промышленных зон». Санкт-Петербург, 7-9 июля 2009 г. СПб.: Крисмас+, 2009. С.104-105.
14. Константинова Е.Д. Взаимосвязанность факторов риска при оценке комплексного влияния окружающей среды на здоровье детей // там же. С.102-104.
15. Konstantinova E.D., Varaksin A.N. Elaboration and application of a new hierarchical classification algorithm in epidemiological research // 23rd annual Conference of International Society for Environmental Epidemiology. Barcelona (Spain), 13-16 September 2011. Abstract № 00389.