Введение 3
1 Обзор предметной области 5
2 Формирование требований 9
2.1 Входные данные 9
2.2 Инструменты реализации 10
3 Сбор и обработка данных 12
3.1 Получение данных 12
3.2 Очистка данных и форматирование данных 12
3.3 Разведочный анализ данных 13
3.4 Конструирование и выбор признаков 18
3.5 Определение исходного базового уровня 19
3.6 Изменение диапазона признаков 20
4 Выбор и настройка модели машинного обучения 22
4.1 Выбор модели машинного обучения 22
4.2 Реализация модели машинного обучения 23
4.3 Гиперпараметрическая настройка модели 24
5 Результаты работы 29
Заключение 34
Список использованных источников 36
Приложение
Исследование, проведенное в Тинто в 1987 году, показало, что примерно 57% студентов выбирают учебное заведение, не обращая внимание на факультет обучения, а 43% студентов вуза бросают учебу, так и не получив диплом о высшем образовании. Особое внимание в исследовании уделялось факторам, влияющим на способность студента успешно закончить высшее учебное заведение. Был изучен ряд академических факторов для выявления студентов, которые с наибольшей вероятностью достигнут успеха. Качественные переменные, такие как пол, образовательный уровень родителей, средний бал в школе, рейтинг школы, оценки ЕГЭ были связаны с показателями в вузе. Тем не менее, исследователями было предположено, что основными причинами слабости студентов являются не академические, а эмоциональные показатели и социальное здоровье. Исследователями была выявлена зависимость, что студенты, обладающие высокой уверенностью в себе, самообладанием, устремленностью в достижении целей связаны с более высокой успеваемостью. Кроме того, студенты, которые являются адаптивными перфекционистами, с большей вероятностью успешно завершают обучение. Таким образом, было выявлено, что личностные параметры пригодны для определения будущей успеваемости и вероятности отчисления студента из вуза [1].
Однако сбор и анализ данных о личностных характеристиках представляет собой трудозатратный процесс, так как включает в себя целый набор задач: от составления вопросов анкетирования до анализа
проведенного тестирования для выявления персональных характеристик респондента.
Согласно исследованию Михаила Косински, подробно описанного в обзоре предметной области, профиль пользователя в социальной сети
предоставляет необходимые данные для построения психо-демографического портрета, что избавляет от необходимости ручного сбора данных.
Целью данной работы является разработка модели машинного обучения для выявления взаимосвязи индивидуальных характеристик учащихся и их академической успеваемости, а также прогноза среднего балла успеваемости по данным характеристикам.
Для достижения указанной цели были поставлены следующие задачи:
1. собрать количественные и качественные данные профилей студентов в социальной сети;
2. очистить данные, полученные из социальной сети, при помощи разведочного анализа данных, конструирования и выбора признаков;
3. определить модель с наименьшей средней абсолютной ошибкой, подобрать параметры и обучить модель;
4. выявить признаки, влияющие на прогнозирование среднего балла.
В результате данной дипломной работы была достигнута поставленная цель - разработана модель машинного обучения, которая выявляет взаимосвязь индивидуальных характеристик учащихся и их академической успеваемости, а также прогнозирует средний балл успеваемости по данным характеристикам.
Для достижения поставленной цели были выполнены следующие задачи:
• собраны и обработаны первичные данные студентов всех курсов, составлена база данных из информации профилей пользователей в социальной сети ВКонтакте и средних баллов академической успеваемости;
• полученные данные очищены для интерпретируемости моделью машинного обучения, выявлены и удалены незначимые признаки;
• подобраны параметры, произведено обучение модели с наименьшей средней абсолютной ошибкой.
В результате обучения модели были выявлены признаки, больше всего повлиявшие на составление вывода по полученным данным. К этим признакам относятся количественные признаки: подписки на популярные личности, друзья, фото профиля, а также категориальные признаки: подписки на интересные страницы с тематикой программирование, креативная работа, юмор.
Для улучшения качества модели в дальнейшем могут учитываться дополнительные параметры, такие как активность в группах, время, проводимое в сети, и т.д. Кроме того, для получения дополнительной информации могут быть рассмотрены другие социальные сети.
Результаты данной выпускной квалификационной работы опубликованы в открытом доступе в репозитории GitLab и доступны по ссылке: http ://gititis.kpfu.m/iikhsan/diplom.
1. Pritchard, М. Using Emotional and Social Factors to Predict Student Success [Text] / M. Pritchard, S. Gregory // Journal of College Student Development. - 2003. - V. 44, № l.-P. 18-28.
2. What your Facebook likes say about you [Электронный ресурс] / CBC. -
Режим доступа: https://www.cbc.ca/news/technology/
facebook-likes-like-a-gift-1.3893298, свободный.
3. Психометрический вступительный экзамен в Израиле [Электронный
ресурс] / Официальный сайт путеводителя по Израилю. - Режим доступа: https://guide-israel.m/country/37376-psixometricheskij-
vstupitelnyj- ekzamen/, свободный.
4. Shuotian, В. Big-Five Personality Prediction Based on User Behaviors at Social Network Sites [Text] / B. Shuotian, Z. Tingshao, C. Fi. // Cornell University, Tech. Rep. - 2012.
5. Friedrichsen, M. Research Hypotyses [Text] / M. Friedrichsen, W. Muhl-Benninghaus // Handbook of Social Media Managment Value Chain and Business Models in changing media marketing, 2013. - 880 p.
6. Junco, R. Too much face and not enough books: The relationship between multiple indices of Facebook use and academic performance [Text] / R. Junco // Computers in Human Behavior. - 2012. - V. 28, №1, - P. 187 - 198
7. Junco R. The relationship between frequency of Facebook use, participation in Facebook activities, and student engagement Received. [Text] / R. Junco // Magazine Computers & Education. - 2012. - V. 58, №1, - P. 162 - 171.
8. Kosinski, M. Private traits and attributes are predictable from digital records of human behavior [Text] / M. Kosinski, D. Stillwell, T. Graepel // Magazine PNAS. - 2013. - V. 110, № 15.-P. 5802 - 5805.
9. Мацута, В. Методы и инструменты выявления перспективных абитуриентов в социальных сетях [Текст] / В.В. Мацута, П.Б. Киселев, А.Б. Фещенко, В.Л. Бойко, Е.А. Сузанова, А.А. Степаненко // Открытое и дистанционное образование. - 2017. № 4. - С. 45 - 52.
10. Penetration of leading social networks in Russia as of 4th quarter 2017
[Электронный ресурс] / Немецкое аналитическое агентство Statistica. - Режим доступа: https://www.statista.com/statistics/284447/
russia-social-network-penetration/, свободный.
11. Мотивы проявления студентами колледжей социальной активности в социальных сетях: регионального аспекта [Электронный ресурс] / Электронный научный архив УрФУ. - Режим доступа: http://elar.urfu.rU/bitstream/10995/59123/l/978-5-91256-403-l_2018_053.p df, свободный.
12. Вконтакте - социальная сеть [Электронный ресурс] / Вконтакте. - Режим доступа: https://vk.com/, свободный.
13. Правила защиты информации о пользователях сайта VK.com [Электронный ресурс] / Политика конфиденциальности. - Режим доступа: https://vk.com/privacy, свободный.
14. Программная библиотека для работы с веб ресурсом Вконтакте [Электронный ресурс] / vk.com phyton API wrapper. - Режим доступа: https://github.com/voronind/vk, свободный.
15. Kaggle is an online community of data scientists and machine learners, owned by Google LLC [Электронный ресурс] / Kaggle. - Режим доступа: https://www.kaggle.com/, свободный.
16. What are outliers in the data [Электронный ресурс] / Engineering statistics
handbook. - Режим доступа:
https://www.itl.nist.gov/div898/handbook/prc/sectionl/prcl6.htm, свободный.
17. Histograms and density plots in python [Электронный ресурс] / Towards
data since. - Режим доступа: https://towardsdatascience.com/
histograms-and-density-plots-in-python-f6bda88f5ac0, свободный.
18. Семинары по выбору моделей Евгений Соколов [Электронный ресурс]
/ Профессиональный информационно аналитический ресурс
посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. - Режим доступа:
http://www.machineleaming.m/wiki/images/l/lc/Sem06_metrics.pdf, свободный.
19. How to normalize and standardize your machine learning data in weka [Электронный ресурс] / Machine learning mastery. - Режим доступа: https://machinelearningmastery.com/normalize-standardize-machine-learnin g-data-weka/, свободный.
20. Множество моделей машинного обучения [Электронный ресурс] / Scikit библиотека машинного обучения для Python. - Режим доступа: https://scikit-leam.org/stable/supervised_leaming.html, свободный.
21. Overfitting vs underfitting: a conceptual explanation [Электронный ресурс] / Towards data since. - Режим доступа: https://towardsdatascience.com/overfitting-vs-underfitting-a-conceptual-expl anation-d94ee20ca7f9, свободный.
22. What is the difference between a parameter and a Hyperparameter? [Электронный ресурс] / Towards data since. - Режим доступа: https://machinelearningmastery.com/difference-between-a-parameter-and-a- hyperparameter/, свободный.