ЛИНЕЙНАЯ РЕГРЕССИЯ, ОСНОВАННАЯ НА ОБОБЩЕННОМ МЕТОДЕ НАИМЕНЬШИХ КВАДРАТОВ. В ПРИЛОЖЕНИИ К ЗАДАЧАМ ЭКОЛОГИИ И ПРИРОДОПОЛЬЗОВАНИЯ
|
ВВЕДЕНИЕ
ГЛАВА 1. ОБЗОР МАТЕРИАЛОВ НО РЕГРЕССИОННОМУ АНАЛИЗУ В СРЕДЕ
ГЛАВА 2. СОДЕРЖАНИЕ ПОСОБИЯ
ГЛАВА 3. ФУНКЦИИ СРЕДЫ R
ГЛАВА 4. УПРАЖНЕНИЕ. ЗАДАЧА ПОСТРОЕНИЯ МОДЕЛИ РАДИАЛЬНОГО РОСТА СОСНЫ ОБЫКНОВЕННОЙ
4.1. Разведочный анализ.
4.2. Формулировка модели...
4.3. Проверка предположений о данных. Уточнение модели
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ
ГЛАВА 1. ОБЗОР МАТЕРИАЛОВ НО РЕГРЕССИОННОМУ АНАЛИЗУ В СРЕДЕ
ГЛАВА 2. СОДЕРЖАНИЕ ПОСОБИЯ
ГЛАВА 3. ФУНКЦИИ СРЕДЫ R
ГЛАВА 4. УПРАЖНЕНИЕ. ЗАДАЧА ПОСТРОЕНИЯ МОДЕЛИ РАДИАЛЬНОГО РОСТА СОСНЫ ОБЫКНОВЕННОЙ
4.1. Разведочный анализ.
4.2. Формулировка модели...
4.3. Проверка предположений о данных. Уточнение модели
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ
Регрессионный анализ жраст важную роль в современной статистической обработке данных, а также включает а себя большой набор моделей, предположений и техник разведочного анализа данных, учитывающих объективную сложность природных объектов к процессов. От современных исследователей требуется владеть понятиями регрессионного анолта; понимать требования, предъявляемые к данным теми или иными моделями; владеть методами и инструментами для подготовки данных для регрессионного анализа н проверки предположений о данных; понимать пути преодоления проблем, связанных с ограничениями данных.
Современная наука не может развиваться без математической помощи (12). Важным обстоятельством, повлиявшим на процесс внедрения статистических методов является то, что практически все биологические явления н свойства подчиняются статистическим закономерностям, характерным не отдельным объектам, а целым совокупностям объектов. Современная биологическая статистика является разделом биологии, содержанием которого является планирование наблюдений н статистическая обработка их результатов |4{. С бурным развитием информатики и вычислительной техники, в также с потребностью больших знаний об окружающей среде, возникли новая сфера деятельности - экоинформатика - дисциплина, создающая новые методы, модели, алгоритмы и технологии для исследования состояния окружающей средой и решения постоянно возникающих глобальных проблем взаимодействия человека и природы. Экоинформатика, опираясь на статистику, позволяет выявить взаимосвязи, изучить динамику развития, провести анализ для получения обоснованных выводов и принятия правильных решений, которые далее могут быть применены на практике.
Любая статистика требует определенного предмета исследования. Предметом биологической статистики выступают размеры и количественные
соотношения явлений, закономерности их взаимосвязей, развития и изменения в определенных условиях места и времени.
Исследование связей в условиях массового наблюдения и действия случайных факторов осуществляется, как правило, с помощью построения статистических моделей. В широком смысле модель - это аналог, условный образ какого-либо объекта или процесса, приближенно воссоздающий оригинал. Модель представляет собой математическое описание компонентов и функций, отображающих существенные свойства моделируемого объекта или процесса, даст возможность установить основные закономерности изменения оригинала
В основе методов статистического изучения зависимостей лежит регрессионный анализ. Это сборное название для набора методов, используемых для предсказания переменной - отклика (также называемой зависимой, результирующей или условной переменной) по значениям одной или более предсказывающих переменных (также называемых независимыми, или объясняющими). В общем, регрессионный анализ можно использовать для обнаружения независимых переменных, которые имеют отношение к зависимой, для описания типа взаимосвязи и для составления уравнения, позволяющего предсказать значения зависимой переменной по значениям независимых (12).
Классические регрессионные модели, основанные на методе наименьших квадратов, требуют соответствия данных определенным требованиям, которые нс выполняются во многих исследованиях, например при работе с повторными мониторинговыми измерениями, с временными рядами, с данными с пространственной привязкой, данными учета численности особей и т.д. Одной из альтернативных моделей, которой можно воспользоваться в случае невыполнения некоторых предположений о данных, является линейная регрессия, основанная на обобщенном методе наименьших квадратов.
Наиболее популярным инструментом для статистического анализа данных в научном сообществе является среда R |23, 26]. Многие университеты включают в свои учебные программы курсы по изучению. Например, в Гарвардском университете, предлагаются курсы «Data Science: R Basics», «Data Science: Linear Regression»; в Лондонском университете - «Introduction 10 R for data analysis»; в Принстонском университете - «Exploring Data and Descriptive Statistics (using R)». Появляется все больше пособий по изучению этой среды и решению исследовательских задаче сС помощью [6.13.20).
Исходя из вышесказанного, целью работы является подготовка материалов и составление пособия для детального изучения одного из разделов регрессионного анализа, а именно линейной регрессии, основанной на методе обобщениях наименьших квадратов, в привязке к исследованиям в области экологии н природопользования.
Для достижения поставленной цели были решены следующие задачи:
1. Обзор источников информации по регрессионному анализу, разведочному анализу данных.
2. Обзор источников информации по инструментам среды R для проведения разведочного анализа данных н построения линейной регрессии.
3. Составление теоретической части пособия, посвященной обзору разведочною анализа данных н линейного регрессионною анализа.
4. Разработка упражнений, составляющих практическую часть пособия.
В пособии будут рассмотрены:
• определение линейной регрессии;
• возможности и ограничения линейной регрессии для решения исследовательских задач в области экологии и природопользования;
• область применения линейной регрессии, основанной на методе обобщенных наименьших квадратов;
• процедуры разведочного анализа данных и проверки предположений о данных;
• процедуры построения линейных регрессионных моделей н оценки их качества.
Современная наука не может развиваться без математической помощи (12). Важным обстоятельством, повлиявшим на процесс внедрения статистических методов является то, что практически все биологические явления н свойства подчиняются статистическим закономерностям, характерным не отдельным объектам, а целым совокупностям объектов. Современная биологическая статистика является разделом биологии, содержанием которого является планирование наблюдений н статистическая обработка их результатов |4{. С бурным развитием информатики и вычислительной техники, в также с потребностью больших знаний об окружающей среде, возникли новая сфера деятельности - экоинформатика - дисциплина, создающая новые методы, модели, алгоритмы и технологии для исследования состояния окружающей средой и решения постоянно возникающих глобальных проблем взаимодействия человека и природы. Экоинформатика, опираясь на статистику, позволяет выявить взаимосвязи, изучить динамику развития, провести анализ для получения обоснованных выводов и принятия правильных решений, которые далее могут быть применены на практике.
Любая статистика требует определенного предмета исследования. Предметом биологической статистики выступают размеры и количественные
соотношения явлений, закономерности их взаимосвязей, развития и изменения в определенных условиях места и времени.
Исследование связей в условиях массового наблюдения и действия случайных факторов осуществляется, как правило, с помощью построения статистических моделей. В широком смысле модель - это аналог, условный образ какого-либо объекта или процесса, приближенно воссоздающий оригинал. Модель представляет собой математическое описание компонентов и функций, отображающих существенные свойства моделируемого объекта или процесса, даст возможность установить основные закономерности изменения оригинала
В основе методов статистического изучения зависимостей лежит регрессионный анализ. Это сборное название для набора методов, используемых для предсказания переменной - отклика (также называемой зависимой, результирующей или условной переменной) по значениям одной или более предсказывающих переменных (также называемых независимыми, или объясняющими). В общем, регрессионный анализ можно использовать для обнаружения независимых переменных, которые имеют отношение к зависимой, для описания типа взаимосвязи и для составления уравнения, позволяющего предсказать значения зависимой переменной по значениям независимых (12).
Классические регрессионные модели, основанные на методе наименьших квадратов, требуют соответствия данных определенным требованиям, которые нс выполняются во многих исследованиях, например при работе с повторными мониторинговыми измерениями, с временными рядами, с данными с пространственной привязкой, данными учета численности особей и т.д. Одной из альтернативных моделей, которой можно воспользоваться в случае невыполнения некоторых предположений о данных, является линейная регрессия, основанная на обобщенном методе наименьших квадратов.
Наиболее популярным инструментом для статистического анализа данных в научном сообществе является среда R |23, 26]. Многие университеты включают в свои учебные программы курсы по изучению. Например, в Гарвардском университете, предлагаются курсы «Data Science: R Basics», «Data Science: Linear Regression»; в Лондонском университете - «Introduction 10 R for data analysis»; в Принстонском университете - «Exploring Data and Descriptive Statistics (using R)». Появляется все больше пособий по изучению этой среды и решению исследовательских задаче сС помощью [6.13.20).
Исходя из вышесказанного, целью работы является подготовка материалов и составление пособия для детального изучения одного из разделов регрессионного анализа, а именно линейной регрессии, основанной на методе обобщениях наименьших квадратов, в привязке к исследованиям в области экологии н природопользования.
Для достижения поставленной цели были решены следующие задачи:
1. Обзор источников информации по регрессионному анализу, разведочному анализу данных.
2. Обзор источников информации по инструментам среды R для проведения разведочного анализа данных н построения линейной регрессии.
3. Составление теоретической части пособия, посвященной обзору разведочною анализа данных н линейного регрессионною анализа.
4. Разработка упражнений, составляющих практическую часть пособия.
В пособии будут рассмотрены:
• определение линейной регрессии;
• возможности и ограничения линейной регрессии для решения исследовательских задач в области экологии и природопользования;
• область применения линейной регрессии, основанной на методе обобщенных наименьших квадратов;
• процедуры разведочного анализа данных и проверки предположений о данных;
• процедуры построения линейных регрессионных моделей н оценки их качества.
На основе материалов, разработанных а данной работе, было составлено пособие «Линейная регрессия, основанная на обобщенном методе наименьших квадратов, в приложении к задачам экологии и природопользования».
В пособии приводится краткая информация о видах регрессионных моделей. Наибольшее внимание уделяется темам разведочного анализа, проверке пред наложений о данных для выбора линейной регрессионной модели, а также особенностям моделей, основанных на классическом н обобщенном методе наименьших квадратов. Даются примеры, содержащие специфику исследований в области экологии и природопользования.
Пособие содержит следующие разделы теоретической части:
• Определение регрессии
• Виды регрессии (LM. GLM. GLS. GAM. GAMM, NLM. LME. ZIP. ZAP. ZIPNB. ZANB)
• Предположения для построения МНК- и ОМНК-ретрессий
• Разведочный анализ данных
• Схема регрессионного анализа
Практическую часть пособия составляют разделы:
• Функции среды R
• Тематическое упражнение «Задача построения модели радиального роста сосны обыкновенной»
Пособие структурировано «от теории к практике». Теоретические разделы проиллюстрированы примерами и кодами (см. Приложение 2), реал> по ванными в среде R. Приложение 1 содержит перевод всех англоязычных терминов.
Созданное пособие нс рассматривает модели со смешанными эффектами и нелинейные модели.
В пособии приводится краткая информация о видах регрессионных моделей. Наибольшее внимание уделяется темам разведочного анализа, проверке пред наложений о данных для выбора линейной регрессионной модели, а также особенностям моделей, основанных на классическом н обобщенном методе наименьших квадратов. Даются примеры, содержащие специфику исследований в области экологии и природопользования.
Пособие содержит следующие разделы теоретической части:
• Определение регрессии
• Виды регрессии (LM. GLM. GLS. GAM. GAMM, NLM. LME. ZIP. ZAP. ZIPNB. ZANB)
• Предположения для построения МНК- и ОМНК-ретрессий
• Разведочный анализ данных
• Схема регрессионного анализа
Практическую часть пособия составляют разделы:
• Функции среды R
• Тематическое упражнение «Задача построения модели радиального роста сосны обыкновенной»
Пособие структурировано «от теории к практике». Теоретические разделы проиллюстрированы примерами и кодами (см. Приложение 2), реал> по ванными в среде R. Приложение 1 содержит перевод всех англоязычных терминов.
Созданное пособие нс рассматривает модели со смешанными эффектами и нелинейные модели.



