Аннотация
ВВЕДЕНИЕ 2
Глава 1. Выбор и обоснование методов и инструментов анализа данных 7
1.1 Data Mining. Актуальность и характерные особенности 7
1.1.1 Классификация Data Mining 9
1.1.2 Анализ популярных сервисов по аналитике данных в социальной сети
«ВКонтакте» 13
1.2 Основные концепции одаренности отечественных и зарубежных ученых .. 17
1.3 Основные позиции к проблеме соотношения интеллекта и креативности ... 19
1.4 Алгоритмы для решения задач обработки данных 20
1.5 Исследования на основе методов машинного обучения 22
Глава 2. Разработка модели прогнозирования наличия признаков одаренности
по данным из профиля в социальной сети «Вконакте» 29
2.1 Описание и построение модели 29
2.2 Выбор средств разработки 33
2.2.1 Описание программного продукта Anaconda 36
2.2.2 Описание программы MS Excel 39
2.3 Апробация модели и расчет точности полученных результатов на примере
тестовой выборки 40
2.4 Автоматизация модели 44
ЗАКЛЮЧЕНИЕ 50
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 53
ПРИЛОЖЕНИЕ А 59
ПРИЛОЖЕНИЕ Б 60
В связи со стремительным ростом пользователей в социальных сетях возникает вопрос о методах анализа и способах обработки постоянно возрастающей информации в сети для решения различных задач: от бытовых проблем и заканчивая проблемами мирового масштаба. Ранее было доказано [1], что принадлежность пользователей к сообществам в социальных сетях Facebook и Twitter может быть использована для прогнозирования психологических качеств подписчиков этих сообществ. Facebook - самая крупная по количеству пользователей социальная сеть [2]. В ней зарегистрировано более 1 млрд. человек. В профилях пользователей можно встретить различные демографические атрибуты: пол, возраст, семейное положение, политические и религиозные взгляды и т.д.
Классификаторы, которые извлекаются из авторских постов и профилей пользователей, могут с высокой долей вероятности прогнозировать значения атрибутов, скрытых или вовсе не указанных в профиле у пользователя.
Одной из самых популярных социальных сетей, в качестве ресурса для выявления демографических атрибутов, исследователи называют Twitter. Сервис позволяет публиковать сообщения (блоги) объемом до 140 символов.
Сложность сбора информации в Twitter для обучающей выборки заключается в отсутствии демографических атрибутов в профилях у пользователей. Но и в этом случае тексты небольшой длины имеют свои преимущества, которые были исследованы в 2013 году [3].
Актуальность данного исследования связана с заинтересованностью региона поддерживать высокий уровень подготовки будущих студентов, а также искать и привлекать одаренных старшеклассников в региональные вузы. В связи с этим возникает проблема, заключающаяся в отсутствии инструментов по выявлению одаренных старшеклассников. В настоящий момент в социальных сетях генерируются значительные потоки информации, которые характеризуются высоким уровнем динамичности и масштабности, но они не используются вузами для решения задач по поиску и отбору талантливых абитуриентов.
На основе использования современных технологий анализа больших данных получаемая из социальных сетей информация, которая на первый взгляд представляется разрозненной, может быть распределена по огромному количеству критериев - как общих для отдельных групп пользователей, так и персонально-ориентированных. Эти критерии формулируются в соответствии с социальными и экономическими задачами, решаемыми как на национальном, так и на региональном уровне. Так, регионы, стремясь повысить качество системы высшего образования и расширить рынок предлагаемых образовательных услуг, нацелены на обеспечение высокого уровня подготовки будущих студентов и достижение значительных показателей поступления абитуриентов в региональные вузы.
Для достижения поставленных перед регионом целей в извлекаемых из социальных сетей данных необходимо находить закономерности, на основе которых можно выявить основные психологические и поведенческие характеристики целевой аудитории, ее интересы и профессиональные увлечения, а также определить особенности формирования единого портрета интересующего регион пользователя, т.е. будущего студента вуза.
Была выдвинута гипотеза, что по данным профиля социальной сети можно с некоторой вероятностью определить признаки одаренности старшеклассников и автоматизировать алгоритм прогнозирования признаков одарённости при обработке больших объёмов данных. Основаниями для исследования послужили современные научные представления об одаренности, изложенные в работах отечественных и зарубежных ученых: концепции одаренности Ю. Д. Бабаевой, Д. Б. Богоявленской [4], А. М. Матюшкина [5], Н. С. Лейтеса [6], многомерные модели одаренности К. Хеллера [7-8], Дж. Рензулли [9-10] и т.д.
В отечественных и зарубежных работах представлены результаты анализа данных социальных сетей для исследования и прогнозирования пола, возраста, национальности, психологического типа пользователей, их политических предпочтений, но не одаренности [1, 3, 16, 41, 45 и др.].
Работа над диссертационным исследованием проводилась в рамках проекта Российского фонда фундаментальных исследований (номер проекта: 1716-70004 РГНФ) «Исследование потенциала социальных сетей для выявления, привлечения и закрепления талантливой молодежи в региональных вузах на основе анализа больших данных». Основная цель проекта заключается в осуществлении высокотехнологичного анализа синтезированных данных социальных сетей и последующем использовании полученных результатов при моделировании механизмов привлечения абитуриентов в региональные вузы. В рамках данного проекта предполагается комплексный подход к решению проблемы, основанный на сочетании методов анализа больших данных, математического моделирования, сетевой визуализации, когнитивной лингвистики, педагогики и цифровой гуманитаристики, позволяющих синтезировать данные различных типов и провести научную интерпретацию полученных результатов [11].
Предметом исследования является феномен одарённости у старшеклассников. Объект исследования - прогнозирование признаков одарённости у старшеклассников по открытым пользовательским данным в социальной сети «Вконтакте».
Цель исследования - на основе имеющихся данных о старшеклассниках (результаты психологического тестирования и сведения из профиля в социальной сети «Вконтакте») разработать прогностическую модель, определяющую признаки одаренности по открытым пользовательским данным в социальной сети для потенциальных абитуриентов ТГУ.
Для решения поставленной цели необходимо было выполнить следующий перечень задач.
1. Изучить состояние российских и зарубежных исследований и практик по анализу данных в социальных сетях.
2. Подготовить для анализа исходные данные о старшеклассниках: результаты психологического тестирования и сведения из профиля социальной сети «Вконтакте».
3. Выбрать и апробировать методы анализа данных для разработки прогностической модели выявления одарённых абитуриентов.
4. Выбрать и обосновать инструменты для анализа больших данных.
5. Разработать модель прогнозирования признаков одарённости старшеклассников и оценить её точность.
6. Автоматизировать алгоритм прогнозирования признаков одарённости.
Выпускная квалификационная работа имеет классическую структуру. В первой главе рассматриваются современные методы и инструменты сбора и анализа данных в социальных сетях, анализируется отечественный и зарубежный опыт использования алгоритмов машинного обучения для моделирования когнитивных и психологических характеристик личности, определяется феномен одарённости на основании концепций российских и зарубежных ученых, рассматривается проблема сочетания разных признаков одарённости и трудности их прогнозирования. Содержание первой главы обосновывает возможность прогнозирования признаков одарённости у старшеклассников по их профилю в социальной сети, определяет наиболее соответствующие цели диссертационного исследования методы и инструменты анализа.
Во второй главе представлены основные этапы разработки модели прогнозирования признаков одаренности у старшеклассников по данным из профиля в социальной сети «Вконакте»: описана структура исходных данных, алгоритм их подготовки для анализа, проведен выбор и обоснование программных инструментов, разработана прогностическая модель, проведена её апробация и оценка точности.
В приложениях представлены результаты комплексного
профориентационного тестирования старшеклассников в ТГУ и исходные данные о подписках старшеклассников на тематические сообщества «ВКонтакте».
В рамках магистерской работы на основе данных о подписках абитуриентов 2018 года была разработана модель, которая с некоторой долей вероятности по четырем признакам (креативность, интеллект, мотивация, личность) классифицирует учащихся на одну из трех категорий: 1 - высокий уровень, 2 - средний уровень, 3 - низкий уровень. Полученная информация позволила выявить абитуриентов с выраженными лидерскими качествами, креативным мышлением и интеллектуальными способностями.
Изученный материал отечественных и зарубежных ученых по анализу данных в социальных сетях подтверждает возрастающий интерес к этой области знаний. А на основе анализа их работ удалось разработать алгоритм обработки имеющихся данных с минимальными затратами вычислительных мощностей.
Апробация результатов на тестовой выборке показала точность от 62% до 90%, в зависимости от признака, среди учащихся с высоким уровнем представленности признака одарённости. Именно определение этой категории учеников являлось основной задачей данного исследования.
Автоматизация модели реализована на языке программирования Python 3.6. Анализ, хранение и обработка данных осуществлялась в программном продукте MS Excel.
Рассмотренные в исследовании методики, подходы и проведенное исследование с разработанным алгоритмом обработки данных показали, что технологии машинного обучения имеют большой потенциал для анализа информации в социальных сетях. Мировой опыт применения алгоритмов обработки данных к решению многих актуальных задач может быть успешно использован для создания и развития нового аналитического инструментария социальных и гуманитарных наук, в том числе в области социальных медиа.
На основе исследований по магистерской диссертации был присвоен диплом II степени на Международной конференции «Актуальные проблемы социальных наук» в секции «Гуманитарная информатика: исследование информационного общества и социальных проблем информатизации».
Что касается дальнейшего развития работы, в силу того, что при моделировании скорость обработки большого объема данных существенно снижается, следует произвести интеграцию с базами данных для оптимизации временных затрат. Помимо рассматриваемых подписок на сообщества в социальной сети планируется расширить анализ такими признаками как: репосты, авторские тексты в профиле, графы социальных связей. В перспективе внедрение модели в региональные вузы страны с целью повышения качества образования за счет привлечения одаренных абитуриентов. Так, регионы, стремясь повысить качество системы высшего образования и расширить рынок предлагаемых образовательных услуг, нацелены на обеспечение высокого уровня подготовки будущих студентов и достижение значительных показателей поступления абитуриентов в региональные вузы. Для достижения поставленных перед регионом целей в извлекаемых из социальных сетей данных необходимо находить закономерности, на основе которых можно выявить основные психологические и поведенческие характеристики целевой аудитории, ее интересы и профессиональные увлечения, а также определить особенности формирования единого портрета интересующего регион пользователя, т.е. будущего студента вуза.
В связи с тем, что информация по абитуриентам 2018 года была предоставлена без разделения по половому признаку, в дальнейшем, планируется выгрузить эту информацию и провести анализ уже с учетом новых данных.
Основной тенденцией расширения социальных сетей в качестве социокультурного феномена, можно выделить четкое понимание принципов поведения человека в обществе. Вследствие этого, необходимо акцентировать внимание на разработку средств для самовыражения, а также на обмен информацией и опытом.
В перспективе высока вероятность дальнейшего развития возможностей и влияния социальных сетей. Вследствие этого, доработка пользовательской модели согласно новым потребностям на информационном рынке станет актуальной задачей в ближайшее время. Расширение функционала социальных сетей способствует возникновению новых типов данных в виде объектов и связей социального графа, что, в свою очередь, приведет к появлению новых задач и различных алгоритмов для эффективного их решения, связанного с обработкой частной информации.
1. A Societal Sentiment Analysis: Predicting the Values and Ethics of Individuals by Analysing Social Media Content / T. Maheshwari et al. // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. - 2017. - Vol. 1. - P. 731-741.
2. Рейтинг популярности социальных сетей. [Электронный ресурс] // URL : https://gs.seo-auditor.com.ru/dir/ (дата обращения: 15.10.2017).
3. Коршунов А. и др. Определение демографических атрибутов пользователей микроблогов //Труды Института системного программирования РАН. - 2013. - Т. 25, стр. 179-194. DOI: 10.15514/ISPRAS-2013-25-10.
4. Рабочая концепция одаренности / Д. Б. Богоявленская [и др.]. - М. : Мин- во образования РФ, 2003. - 95 с.
5. Матюшкин A. M. Мышление, обучение, творчество / А. М. Матюшкин. - М.: Изд-во МПСИ; Воронеж : НПО «МОДЭК», 2003. - 720 с.
6. Психология одаренности детей и подростков / под ред. Н. С. Лейтеса. - М: Издательский центр «Академия», 1996. - 416 с.
7. Хеллер К. А. Диагностика и развитие одаренных детей и подростков // Основные современные концепции творчества и одаренности. - М., 1997. - С. 243-264.
8. Heller K. A. International trends and issues of research into giftedness // Proceedings of the Second Asian Conference on giftedness: growing up gifted and talented. - 1992. - P. 93-110.
9. Рензулли Дж. Модель обогащающего школьного обучения / Дж. Рензулли, С. М. Рис // Основные современные концепции творчества и одаренности. - М., 1997. - С. 214-242.
10. Renzulli J. S. What is the thing called giftedness, and how do we develop it? A twenty five year perspective // Journal for the education of the gifted. - 1999. - Vol. 23. - № 1. - P. 3-54.
11. Щебланова Е. И. Одаренность как психологическая система: структура и динамика в школьном возрасте: дис. д-ра психол. наук / Е. И. Щебланова. - М., 2006. - 311 с.
12. Что такое Data Mining? [Электронный ресурс] // URL: https://www.intuit.rU/studies/courses/6/6/lecture/158 (дата обращения: 05.10.2017).
13. Интеллектуальный анализ данных [Электронный ресурс] // URL: https://studfiles.net/preview/6172591/page:6/ (дата обращения: 05.10.2017).
14. Описание YouScan Электронный ресурс] // URL:
https://startpack.ru/application/youscan-smm (дата обращения: 02.03.2017).
15. Возможности сервиса IQbuzz Электронный ресурс] // URL: http://iqbuzz.pro (дата обращения: 02.03.2017)....63