Статистический анализ успеваемости студентов ФМФ 2010-2014 годов поступления: проверка гипотез методами пакета STATISTICA
|
Введение………………………………………………………………………......…6
Глава 1. Элементы математической статистики……………………..9
§ 1. Первичная подготовка статистических данных……………………..………11
§ 2. Оценки параметров распределения случайных величин……….……….......15
2.1. Статистические оценки параметров распределения…………...............15
2.2 Несмещенные, эффективные и состоятельные оценки……….….….....16
2.3 Точечные оценки математического ожидания и дисперсии…..............18
§ 3. Регрессионный и корреляционный анализ……..……………………….…...21
3.1 Коэффициент корреляции……………………………………………..….21
3.2 Парная линейная регрессия……….………………………………………23
3.3 Нелинейная (квадратичная) регрессия………………………………..….27
§ 4. Доверительные интервалы……………..……………………………………..30
4.1 Доверительная надежность……………………………….…………...…30
4.2 Для оценки математического ожидания при известном ……….…….31
4.3 Для оценки математического ожидания при неизвестном …………..33
Глава 2. Специализированный пакет STATISTICА.………….…...…36
§ 1. Описание пакета…………………………………………...…….……....…36
§ 2. Непараметрические методы математической статистики………………....39
§ 3. Статистическая проверка гипотез……………....…….…...…………..…43
3.1. Постановка задачи……………………………………………………………43
3.2. Проверка гипотез об однородности выборки…………………….…………..46
3.2.1.Критерий серий Вальда-Вольфовица (Wald-Wolfowitz runs
test)………………….…………………………………………………………….48
3.2.2. Двух-выборочный тест Колмогорова – Смирнова (Kolmogorov –
Smirnov two-sample test) …………………………………………………….……465
3.2.3. Критерий Манна-Уитни (Mann-Whitney test)…..………….…....…...47
3.2.4 Однофакторный дисперсионный анализ Краскела-Уоллиса (KruskalWallis ANOVA)….……………………………………………………..…….......48
Глава 3. Сбор и статистическая обработка данных…….………….51
§ 1. Оценки параметров распределения случайных величин………………....51
§ 2. Регрессионный и корреляционный анализ….…..…………………….…...55
§ 3. Доверительные интервалы……………………………………………….....60
§ 4. Статистическая проверка гипотез………………………………….....….62
Заключение…………………………….……...………………….……………...67
Литература…………………………...…..…….…………………………….….89
Приложения
Глава 1. Элементы математической статистики……………………..9
§ 1. Первичная подготовка статистических данных……………………..………11
§ 2. Оценки параметров распределения случайных величин……….……….......15
2.1. Статистические оценки параметров распределения…………...............15
2.2 Несмещенные, эффективные и состоятельные оценки……….….….....16
2.3 Точечные оценки математического ожидания и дисперсии…..............18
§ 3. Регрессионный и корреляционный анализ……..……………………….…...21
3.1 Коэффициент корреляции……………………………………………..….21
3.2 Парная линейная регрессия……….………………………………………23
3.3 Нелинейная (квадратичная) регрессия………………………………..….27
§ 4. Доверительные интервалы……………..……………………………………..30
4.1 Доверительная надежность……………………………….…………...…30
4.2 Для оценки математического ожидания при известном ……….…….31
4.3 Для оценки математического ожидания при неизвестном …………..33
Глава 2. Специализированный пакет STATISTICА.………….…...…36
§ 1. Описание пакета…………………………………………...…….……....…36
§ 2. Непараметрические методы математической статистики………………....39
§ 3. Статистическая проверка гипотез……………....…….…...…………..…43
3.1. Постановка задачи……………………………………………………………43
3.2. Проверка гипотез об однородности выборки…………………….…………..46
3.2.1.Критерий серий Вальда-Вольфовица (Wald-Wolfowitz runs
test)………………….…………………………………………………………….48
3.2.2. Двух-выборочный тест Колмогорова – Смирнова (Kolmogorov –
Smirnov two-sample test) …………………………………………………….……465
3.2.3. Критерий Манна-Уитни (Mann-Whitney test)…..………….…....…...47
3.2.4 Однофакторный дисперсионный анализ Краскела-Уоллиса (KruskalWallis ANOVA)….……………………………………………………..…….......48
Глава 3. Сбор и статистическая обработка данных…….………….51
§ 1. Оценки параметров распределения случайных величин………………....51
§ 2. Регрессионный и корреляционный анализ….…..…………………….…...55
§ 3. Доверительные интервалы……………………………………………….....60
§ 4. Статистическая проверка гипотез………………………………….....….62
Заключение…………………………….……...………………….……………...67
Литература…………………………...…..…….…………………………….….89
Приложения
В дипломной работе решается следующая поставленная перед нами
Задача.
Собрать данные по текущей сессионной успеваемости студентов всех
групп ФМФ ТувГУ 2010-ого 2014-ого годов поступления, а также профильные
оценки их аттестатов и результатов вступительных испытаний по системе ЕГЭ
и произвести их статистический анализ, по следующим направлениям:
1. Полная первичная статистическая обработка всех данных в их
ежедневной динамики.
2. Корреляционный и регрессионный анализ.
3. Проверка гипотез об однородности выборок в виде групп студентов за
смежные года с помощью методов пакета ―STATISTICA‖.
На протяжении четырнадцати лет исследования по статистическому
анализу успеваемости студентов физико-математического факультета ТувГУ
ведутся студентами под руководством д. ф.-м. н., проф. Жданка А.И.
В нашей работе производится сбор и обработка оценочных данных по
успеваемости студентам ФМФ ТувГУ всех групп 2010 - 2014 годов
поступления по результатам ЕГЭ для дальнейшего установления зависимостей
между оценками аттестационных и вступительных экзаменов, а также между
оценками этих и сессионных экзаменов. В работе мы использовали данные,
собранные нами ещѐ на 3-ьем курсе в рамках нашей прошлой курсовой работы,
данные, собранные другими студентами – ―курсовиками‖ и ―дипломниками‖ в
прошлые годы, а также дополнительные данные, собранные лично нами за
летнюю (2014 год) и зимнюю сессию (2015 год) по всем группам студентов
ФМФ. Эти данные набраны и введены в ПК. Произведена первичная обработка
данных. Сделаны оценки мат.ожиданий, дисперсий, корреляций, тройственной
корреляции, построены уравнения линейной регрессии. Нами были использованы данные исследований в дипломной работе
МонгушА.А. ,ОюнА.Ю. [22] и в их опубликованной статье [23], в нашей
курсовой работе [19]. Этот массив данных ежегодно обновляется. Мы
также добавили некоторые данные по 2014-2015 учебному году.
При расчѐте корреляционных зависимостей и статистической обработке
данных собранной информации (часть информации уже была размещена в
памяти компьютера, другую часть вносили сами) использовали готовые
статистические формулы из программы MSExcel:
- средние значения (математическое ожидание) по строкам (студентам) и
по столбцам (экзаменам);
- разброс (дисперсия) по строкам (студентам) и по столбцам
(экзаменам).
- средние оценки всех групп по всем математическим дисциплинам и
сессиям, динамику изменений которых мы отследили с помощью диаграмм.
НИЛ ТВиПвфеврале 2012 года получила лицензионную версию
специализированной программы STATISTICA. Используя возможности пакета
STATISTICA, мы сделали более глубокий анализ успеваемости студентов, чем
в предыдущие годы.
В предыдущих исследований много раз выдвигались предположения,
что генеральная совокупность студентовразличных годов поступления
неоднородна и в большой степени отличается год от года, то есть студентов
одних и тех же групп, но различных годов поступления нельзя отнести к одной
генеральной совокупности. Для подтверждения или опровержения данной
гипотезы мы использовали несколько методов из пакета STATISTIСA.
В первых двух Главахнашей дипломной работе
изложенатеоретическаячасть. В ней представлен основной известный
теоретический материал (определения, формулы, примеры некоторых задач),
необходимый нам для практического использования. В данном разделе мы
рассматриваем такие вопросы, как математическое ожидание, дисперсия, корреляция, также проверка статистических гипотез. Последняя Глава является главной в дипломной работе, она посвящена
практическим результатам наших исследований. В этой главе представлены
данные, по которым проводились исследования, формулы, используемые при
их обработке, а также результаты численных расчетов с использованием ЭВМ,
представленные в виде соответствующих таблиц и диаграмм на примере
нескольких выбранных нами студенческих групп.
В Приложениях представлены динамика экзаменационных оценок и
корреляционная зависимость, таблицы уравнения линейной и нелинейной
регрессии и построенные их графики, проверка гипотез об однородности
выборок методами пакета STATISTICA, а также следующие из этого выводы.
Задача.
Собрать данные по текущей сессионной успеваемости студентов всех
групп ФМФ ТувГУ 2010-ого 2014-ого годов поступления, а также профильные
оценки их аттестатов и результатов вступительных испытаний по системе ЕГЭ
и произвести их статистический анализ, по следующим направлениям:
1. Полная первичная статистическая обработка всех данных в их
ежедневной динамики.
2. Корреляционный и регрессионный анализ.
3. Проверка гипотез об однородности выборок в виде групп студентов за
смежные года с помощью методов пакета ―STATISTICA‖.
На протяжении четырнадцати лет исследования по статистическому
анализу успеваемости студентов физико-математического факультета ТувГУ
ведутся студентами под руководством д. ф.-м. н., проф. Жданка А.И.
В нашей работе производится сбор и обработка оценочных данных по
успеваемости студентам ФМФ ТувГУ всех групп 2010 - 2014 годов
поступления по результатам ЕГЭ для дальнейшего установления зависимостей
между оценками аттестационных и вступительных экзаменов, а также между
оценками этих и сессионных экзаменов. В работе мы использовали данные,
собранные нами ещѐ на 3-ьем курсе в рамках нашей прошлой курсовой работы,
данные, собранные другими студентами – ―курсовиками‖ и ―дипломниками‖ в
прошлые годы, а также дополнительные данные, собранные лично нами за
летнюю (2014 год) и зимнюю сессию (2015 год) по всем группам студентов
ФМФ. Эти данные набраны и введены в ПК. Произведена первичная обработка
данных. Сделаны оценки мат.ожиданий, дисперсий, корреляций, тройственной
корреляции, построены уравнения линейной регрессии. Нами были использованы данные исследований в дипломной работе
МонгушА.А. ,ОюнА.Ю. [22] и в их опубликованной статье [23], в нашей
курсовой работе [19]. Этот массив данных ежегодно обновляется. Мы
также добавили некоторые данные по 2014-2015 учебному году.
При расчѐте корреляционных зависимостей и статистической обработке
данных собранной информации (часть информации уже была размещена в
памяти компьютера, другую часть вносили сами) использовали готовые
статистические формулы из программы MSExcel:
- средние значения (математическое ожидание) по строкам (студентам) и
по столбцам (экзаменам);
- разброс (дисперсия) по строкам (студентам) и по столбцам
(экзаменам).
- средние оценки всех групп по всем математическим дисциплинам и
сессиям, динамику изменений которых мы отследили с помощью диаграмм.
НИЛ ТВиПвфеврале 2012 года получила лицензионную версию
специализированной программы STATISTICA. Используя возможности пакета
STATISTICA, мы сделали более глубокий анализ успеваемости студентов, чем
в предыдущие годы.
В предыдущих исследований много раз выдвигались предположения,
что генеральная совокупность студентовразличных годов поступления
неоднородна и в большой степени отличается год от года, то есть студентов
одних и тех же групп, но различных годов поступления нельзя отнести к одной
генеральной совокупности. Для подтверждения или опровержения данной
гипотезы мы использовали несколько методов из пакета STATISTIСA.
В первых двух Главахнашей дипломной работе
изложенатеоретическаячасть. В ней представлен основной известный
теоретический материал (определения, формулы, примеры некоторых задач),
необходимый нам для практического использования. В данном разделе мы
рассматриваем такие вопросы, как математическое ожидание, дисперсия, корреляция, также проверка статистических гипотез. Последняя Глава является главной в дипломной работе, она посвящена
практическим результатам наших исследований. В этой главе представлены
данные, по которым проводились исследования, формулы, используемые при
их обработке, а также результаты численных расчетов с использованием ЭВМ,
представленные в виде соответствующих таблиц и диаграмм на примере
нескольких выбранных нами студенческих групп.
В Приложениях представлены динамика экзаменационных оценок и
корреляционная зависимость, таблицы уравнения линейной и нелинейной
регрессии и построенные их графики, проверка гипотез об однородности
выборок методами пакета STATISTICA, а также следующие из этого выводы.
В настоящей работе приведены результаты полного первичного
статистического анализа динамики успеваемости студентов ФМФ всех
специальностей 2010-2014 годов поступлений, т.е. за пять лет. При сравнении
полученных характеристик с результатами подобных исследований,
полученными нашими студентами – предшественниками по НИРС, в прошлые
годы, каких – либо значительных отклонений не обнаружено.
Для выборочных пар групп студентов одной специальности но разных
годов поступлений было проведено статистическое исследование более
высокого и сложного уровня по проверке статистических гипотез об их
однородности по фактору сессионных оценок. Были использованы 4 метода
проверки гипотез –
1.Критерий серий Вальда- Вольфовица
2.Критерий Манна-Уитни
3. Двухвыборочный тест Колмогорова-Смирнова
4.Дисперсионный анализ Краскела - Уоллиса и медианный критерий
Эти методы вложены в программу STATISTICA. Три метода
подтвердили гипотезу об однородности групп по успеваемости, а четвертый
метод отклонил данную гипотезу. Этот важный результат примерно подтвердил
результаты аналогичных исследований студентов – дипломников в прошлые 3
года. Можно сделать вывод о стабильности образовательного качества
студентов ФМФ за последние 3 года. Он ставит под сомнение
распространенное мнение ряда преподавателей и специалистов об резком
ухудшении качества знаний в последние годы, по крайней мере, у студентов
ФМФ.
Сравнивая наши результаты исследований с работами
дипломниц Монгуш А.А.,ОюнА.Ю. в которой отмечается, «что есть
группы, в которых отмечается сильная прямая связь оценок аттестата и оценок
сессионных экзаменов», мы заключили, что есть группы, в которых результаты аттестата позволяют прогнозировать будущую успеваемость студентов со
средней степенью уверенности».
По сравнению с выводом предыдущей работы, где говорится, что
«результаты проверок гипотез показали, что в некоторых случаях гипотеза
отклоняется, а в других – не отклоняется и из этого нельзя сделать
однозначного вывода, что студенты одной и той же специальности
принадлежат одной генеральной совокупности», мы пришли к более
точному выводу, что студенты одной и той же специальности, но разных
годов поступления на учѐбу в ФМФ ТувГУ, наиболее вероятно
принадлежат одной генеральной совокупности.
Некоторые полученные в настоящей дипломной работе результаты были
нами доложены на ежегодной научной конференции студентов ТувГУ в апреле
2015 г. и представлены в поданной печать работе. Наш доклад заняла
первое место в рейтинге докладов на этой конференции по секции
«Математический анализ и теория вероятностей».
статистического анализа динамики успеваемости студентов ФМФ всех
специальностей 2010-2014 годов поступлений, т.е. за пять лет. При сравнении
полученных характеристик с результатами подобных исследований,
полученными нашими студентами – предшественниками по НИРС, в прошлые
годы, каких – либо значительных отклонений не обнаружено.
Для выборочных пар групп студентов одной специальности но разных
годов поступлений было проведено статистическое исследование более
высокого и сложного уровня по проверке статистических гипотез об их
однородности по фактору сессионных оценок. Были использованы 4 метода
проверки гипотез –
1.Критерий серий Вальда- Вольфовица
2.Критерий Манна-Уитни
3. Двухвыборочный тест Колмогорова-Смирнова
4.Дисперсионный анализ Краскела - Уоллиса и медианный критерий
Эти методы вложены в программу STATISTICA. Три метода
подтвердили гипотезу об однородности групп по успеваемости, а четвертый
метод отклонил данную гипотезу. Этот важный результат примерно подтвердил
результаты аналогичных исследований студентов – дипломников в прошлые 3
года. Можно сделать вывод о стабильности образовательного качества
студентов ФМФ за последние 3 года. Он ставит под сомнение
распространенное мнение ряда преподавателей и специалистов об резком
ухудшении качества знаний в последние годы, по крайней мере, у студентов
ФМФ.
Сравнивая наши результаты исследований с работами
дипломниц Монгуш А.А.,ОюнА.Ю. в которой отмечается, «что есть
группы, в которых отмечается сильная прямая связь оценок аттестата и оценок
сессионных экзаменов», мы заключили, что есть группы, в которых результаты аттестата позволяют прогнозировать будущую успеваемость студентов со
средней степенью уверенности».
По сравнению с выводом предыдущей работы, где говорится, что
«результаты проверок гипотез показали, что в некоторых случаях гипотеза
отклоняется, а в других – не отклоняется и из этого нельзя сделать
однозначного вывода, что студенты одной и той же специальности
принадлежат одной генеральной совокупности», мы пришли к более
точному выводу, что студенты одной и той же специальности, но разных
годов поступления на учѐбу в ФМФ ТувГУ, наиболее вероятно
принадлежат одной генеральной совокупности.
Некоторые полученные в настоящей дипломной работе результаты были
нами доложены на ежегодной научной конференции студентов ТувГУ в апреле
2015 г. и представлены в поданной печать работе. Наш доклад заняла
первое место в рейтинге докладов на этой конференции по секции
«Математический анализ и теория вероятностей».



