ВВЕДЕНИЕ 3
ГЛАВА 1. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ 5
1.1 Статистические критерии 5
1.2 Решающие деревья 5
ГЛАВА 2. МЕТОДЫ АНАЛИЗА ДАННЫХ 7
2.1 Критерий независимости хи-квадрат 7
2.2 Алгоритм случайного леса 7
2.3 Модель бинарной регрессии 9
ГЛАВА 3 ПОСТРОЕНИЕ МОДЕЛИ 12
3.1 Сбор и анализ данных 12
3.2 Построение модели 14
3.3 Оценка качества модели 15
3.4 Тенденция наличия академических задолженностей 17
3.5 Оценка сложности предметов 18
ЗАКЛЮЧЕНИЕ 20
СПИСОК ИСПОЛЬЗОВАНЬЕ ИСТОЧНИКОВ 21
Нередко у студентов в процессе обучения появляются академические задолженности и, в связи с этим, возникает вопрос, что и как влияет на их наличие, поэтому задача, решаемая в работе актуальна для повышения коэффициента сохранности контингента студентов и улучшения качества подготовки.
В работе была проведена обработка массива данных об успеваемости студентов старших курсов ММФ ТГУ. В процессе обработки были выявлены факторы, значимо влияющие на возникновение задолженностей. При помощи статистических методов были получены зависимости успеваемости от различных факторов, таких как посещаемость, условия проживания (общежитие или квартира), размер родного города и сложность предмета, а также применены методы машинного обучения в среде программирования Python для построения модели и дальнейшего прогноза. Помимо этого, были обнаружены некоторые тенденции успеваемости студентов и проведены оценки сложности предметов.
Знание факторов, значимо влияющие на успеваемость, даёт возможность их устранить, и тем самым предотвратить появление задолженностей.
Чтобы изучить данную проблему была поставлена цель выявить факторы, влияющих на академическую успеваемость. Для достижения поставленной цели были сформулированы задачи:
1. Обнаружение возможных признаков, влияющих на наличие задолженностей и выявление зависимости
2. Построение моделей, прогнозирующих успеваемость, с использованием вероятностно-статистических методов и методов машинного обучения
3. Выявление тенденций успеваемости студентов
В ходе проделанной работы по собранным данным с помощью
статистических методов и методов машинного обучения были выявлены
потенциально значимые факторы, влияющие на успеваемость студентов. Ими
оказались посещение занятий и условия проживания. С помощью алгоритма
случайного леса была построена модель с высокой точностью
прогнозирующая возникновения задолженностей.
После построения модели были выявлены определённые тенденции на
наличие задолженностей, но некоторые предметы в них не вписывались,
поэтому было решено оценить сложность каждого предмета, поэтому в работе
был введён новый параметр, оценивающий сложность изучаемого предмета,
влияние этого параметра на процесс возникновения задолженностей оказалось
значительным.
При помощи модели логистической регрессии были получены значения
параметров, по которым в дальнейшем удалось построить диаграмму влияния
признаков на вероятность сдачи.