ВВЕДЕНИЕ
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ 6
1.1. Научные исследования 6
1.2. Информационные системы для мониторинга успеваемости 7
ГЛАВА 2. ИССЛЕДОВАНИЕ И РЕАЛИЗАЦИЯ МЕТОДОВ
ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ 9
2.1. Постановка задачи 9
2.2. Сбор и подготовка данных 11
2.3. Анализ данных 17
2.4. Используемые методы классификации 19
2.5. Метрики оценивания качества классификации 21
2.6. Используемые методы регрессии 23
2.7. Метрики оценивания качества регрессионных моделей 24
2.8. Результаты исследовательской работы 24
ГЛАВА 3. РАЗРАБОТКА СИСТЕМЫ 27
3.1. Описание архитектуры системы 27
3.2. Проектирование базы данных 28
3.3. Используемые технологии для реализации серверной части 30
3.4. Результаты разработки серверной части системы 32
3.5. Используемые технологии для реализации клиентской части 36
3.6. Результаты разработки клиентской части системы 38
ЗАКЛЮЧЕНИЕ 44
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 46
Приложение 1. Методы предобработки данных fillEmptyUSE, normilizeData 48
Приложение 2. Запрос на прогнозирование оценки по выбранному предмету 49
Приложение 3. Класс для асинхронного и параллельного выполнения основных запросов интерфейса студента 50
Высшее образование является важным этапом в жизни каждого человека, но при поступлении в университет не все абитуриенты могут полностью адаптироваться к меняющимся условиям жизни: с первых дней они погружаются в студенческую действительность, в которой им приходится много работать над домашними заданиями, количество которых постоянно увеличивается. Большинство первокурсников не успевает привыкнуть к новой для них системе, нерационально распределяют свое время, что приводит к накоплению долгов по предметам и последующему отчислению.
С этой проблемой могут столкнуться студенты любого курса. Например, второкурсники подвержены риску быть отчисленными, поскольку во время второго года обучения они начинают относиться к учебе менее серьезно, что приводит к поздно сданным домашним заданиям, увеличению количества пропусков лекций, неудовлетворительным результатам на экзаменах и как итог - отчислению из университета.
Из-за существенного для Вузов процента отчислений студентов по всему миру [2, 18], эта проблема послужила отправной точкой для данной дипломной работы, идея которой состоит в том, чтобы на основе собранных и предобработанных наборов данных об учебной успеваемости дать студентам инструмент для оценивания результатов своей деятельности в перспективе.
Цель данной работы заключается в разработке системы, способную проанализировать учебную успеваемость студентов и получить прогноз результатов сдачи экзаменов и зачетов в предстоящую сессию.
Для достижения этой цели необходимо решить следующие задачи:
• Собрать данные о студентах второго курса направления Математическое обеспечение и администрирование
информационных систем за 3 года по всем предметам за 3 семестр.
• Изучить методы машинного обучения и анализа данных. Провести
исследования применимости методов классификации и регрессии для прогнозирования успеваемости.
• Спроектировать базу данных для хранения информации о студентах.
• Разработать серверную часть системы для хранения,
предобработки, анализа данных и для взаимодействия с базой данных.
• Разработать мобильное приложение для просмотра успеваемости студентов.
В ходе дипломной работы были изучены различные подходы и методы из области машинного обучения и анализа данных. Были собраны данные студентов 2 курса за 3 семестр, проведены анализ и предобработка данных.
Для прогнозирования успеваемости студентов были решены следующие задачи:
• Задача бинарной классификации результата зачёта по предмету «Объектно-ориентированное программирование».
• Задача регрессии для прогнозирования оценки за экзамен по предмету «Структуры и алгоритмы компьютерной обработки данных».
• Задача бинарной классификации по итогам семестра (возможность отчисления).
Для решения задачи бинарной классификации были выбраны следующие методы: KNN, SVM, Logistic Regression, Random Forest. Было проведено сравнение результатов работы выбранных методов с помощью метрик оценивания качества классификации и выбраны модели, показавшие наилучшие результаты. Для решения задачи регрессии был применён метод Linear Regression с модификациями (Lasso и Ridge Regression). Оценка качества регрессионных методов проводилась с помощью таких метрик, как коэффициента детерминации и среднеквадратичной ошибки. Лучшие результаты среди выбранных методов регрессии показали стандартный метод линейной регрессии и его модификация - Ridge Regression.
Полученные результаты исследования позволили реализовать систему для анализа и прогнозирования успеваемости студентов, и при дальнейшем развитии работы можно улучшить точность и качество моделей путем увеличения количества и качества предоставляемых для обучения моделей данных.
Для реализации данной системы была спроектирована база данных для хранения информации о студентах; была разработана серверная часть системы, для взаимодействия с базой данных и клиентским приложением; было разработано мобильное приложение в качестве клиентской части системы. Разработанное серверное приложение было размещено на платформе Digital Ocean, что позволяет при наличии интернета использовать клиентскую часть системы с мобильных устройств с ОС Android.
В качестве дальнейшего развития системы можно реализовать клиентское приложение на мобильные устройства с операционной системой iOS, увеличить список предметов, для которых строится прогноз и добавить различные графики для наглядного отображения учебных результатов студентов.
1. Ammar Almasri, Erbug Celebi, Rami S. Alkhawaldeh EMT: Ensemble Meta¬Based Tree Model for Predicting Student Performance. 2019. 11 c.
2. Bustamante J. College Dropout Rates // educationdata.org: [сайт], 2019. URL: https://educationdata.org/college-dropout-rates/
(дата обращения: 19.03.2020)
3. Canbek G. [и др.]. Binary Classification Performance Measures/Metrics: A comprehensive visualized roadmap to gain new insights. // 2017 International Conference on Computer Science and Engineering (UBMK). 2017.
4. CASE STUDY I: Predictive analytics at Nottingham Trent University // Learning Analytics in Higher Education. 2015.
5. Cornelia G., [и др.]. A Comparative Study: MongoDB vs. MySQL // The 13th International Conference on Engineering of Modern Electric Systems. 2015.
6. Dalson. B., SILVA Jose. A. What is R2 all about? // Leviathan-Cadernos de Pesquisa Polutica. 2011.
7. Davy Cielen, Arno D. B., Mohamed Ali Introducing Data Science. 320 c.
8. insights.stackoverflow: [сайт]. Developer Survey Results 2019. 2019. URL: https://insights.stackoverflow.com/survey/2019#most-popular-technologies (дата обращения: 18.03.2020)
9. Hao K. What is machine learning? // technologyreview.com [сайт]. 2018. URL: https: //www.technologyreview. com/2018/11/17/103781/what-is- machine-learning-we-drew-you-another-flowchart/ (дата обращения: 26.03.2020)
10. Koehrsen W. An Implementation and Explanation of the Random Forest in Python // towardsdatascience.com: [сайт]. 2018. URL: https://towardsdatascience.com/an-implementation-and-explanation-of-the- random-forest-in-python-77bf308a9b76 (дата обращения: 27.04.2020)
11. Lubna Mahmoud Abu Zohair Prediction of Student’s performance by modelling small dataset size // International Journal of Educational Technology in Higher Education. 2019. C. 16.
12. machinelearning.ru: [сайт]. Коэффициент детерминации. URL:
http: //www.machinelearning. ru/wiki/index.php?title=%D0%9A%D0%BE%D 1 %8D%D 1 %84%D 1 %84%D0%B8%D 1 %86%D0%B8%D0%B5%D0%BD%D 1 %82%D0%B4%D0%B5%D 1 %82%D0%B5%D 1 %80%D0%BC%D0%B8 %D0%BD%D0%B0%D 1 %86%D0%B8%D0%B8 (дата обращения: 02.06.2020)
13. Megan Squire, Mastering Data Mining with Python - Find patterns hidden in your data. - Published by Packt Publishing Ltd. 2016. 268 c.
14. Nabi J. Machine Learning — Multiclass Classification with Imbalanced Dataset // Towardsdatascience.com: [сайт]. 2018. URL:
https: //towardsdatascience. com/machine-learning-multiclass-classification- with-imbalanced-data-set-29f6a177c1 a (дата обращения: 13.04.2020)
15. Piatetsky G. CRISP-DM, still the top methodology for analytics, data mining, or data science projects // kdnuggets.com: [сайт]. 2014. URL:
https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics- data-mining-data-science-projects.html (дата обращения: 13.05.2020)
16.Suzanne van den Bosch: Automatic feature generation and selection in predictive analytics solutions. 2017.
17. Wesam S. Bhaya Review of Data Preprocessing Techniques in Data Mining // Journal of Engineering and Applied Sciences. 2017. 12 c.
18. Дунаева К.И., Монанкова Д.Ю. Оценка риска отчисления студентов вузов России: основные причины и последствия. // scienceforum.ru: [сайт]. 2018. URL: https://scienceforum.ru/2018/article/2018008328 (дата обращения: 26.03.2020)
19. Рашка С. Р. Python и машинное обучение / пер. с англ. А. В. Логунова. - М.: ДМК Пресс, 2017. 418 c.
20. Русаков С.В., Русакова О.Л., Посохина К.А. Нейросетевая модель прогнозирования группы риска по успеваемости студентов первого курса // Современные информационные технологии и ИТ-образование. 2018. 815-822 c.