Тип работы:
Предмет:
Язык работы:


Анализ цифровых следов отдельных групп подростков в социальной сети «ВКонтакте»

Работа №91400

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы40
Год сдачи2021
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
159
Не подходит работа?

Узнай цену на написание


ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ МАШИННОГО ОБУЧЕНИЯ .... 13
1.1. Методы машинного обучения 13
1.2. Градиентный бустинг 15
1.3. Язык программирования Python 16
1.4. Библиотеки Python 19
1.5. Метрики оценивания моделей 25
ГЛАВА 2. РАБОТА С БОЛЬШИМИ ДАННЫМИ 28
2.1. Цифровой след 28
2.2. Сбор и предварительная обработка данных 29
2.3. Построение модели 32
ЗАКЛЮЧЕНИЕ 34
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 35
ПРИЛОЖЕНИЕ 37


РЕФЕРАТ
Тема работы: «Анализ цифровых следов отдельных групп подростков в социальной сети “ВКонтакте”»
Цель - построение алгоритма идентификации возрастной группы подростков с использованием их цифрового следа.
Объект исследования - социальная сеть “ВКонтакте”.
Предмет исследования - цифровой след подростков.
В результате исследования были выполнены следующие задачи:
1. Обработан массив подписок, проведен поиск уникальных подписок, построен рейтинг подписок.
2. Реализован алгоритм выгрузки данных из социальной сети.
3. Разработан алгоритм идентификации возрастной группы.
4. Попытка автоматизировать улучшение модели.
Общий объем работы изложен на 44 страницах печатного текста и содержит 1 рисунок, 8 таблиц и 3 приложения, список использованных источников литературы включает 17 наименований.
Ключевые слова: Социальные сети, цифровой след, машинное
обучение, большие данные, анализ данных.
В настоящее время известно, что активно развиваются технологии отслеживания и анализа информации в сети. Следует принять во внимание, что большое количество людей проводит в Интернете значительную часть своей жизни, активно пользуясь всеми его функциям одновременно: поисковыми, информационными, коммуникативными, социальными, развлекательными, учебными, профессиональными и т.д. Как следствие люди оставляют в интернете информацию о себе, называемую по-другому цифровым следом.
Исследование, проведенное “We Are Social” и “Hootsuite”, показывает глобальное проникновение Интернета в мире 59,5 %, а в России-85,0%, и количество пользователей социальных сетей - 67,8% от общей численности населения. По данным исследования, проведённого экспертами «Лаборатории Касперского», около трети российских подростков из старшей возрастной группы от 15 до 18 лет всё своё свободное время проводят в интернете. В общей сложности, порядка 85% детей не могут в повседневной жизни обходиться без смартфонов и других гаджетов.
Цифровые следы могут быть активными и пассивными. Первые пользователи оставляют сознательно - это посты в блоге, комментарии к обсуждениям, переписка, лайки, подписки на сообщества и так далее. Из всего этого складывается виртуальный образ личности. Пассивным цифровым следом считаются данные, оставленные непредумышленно: ip - адрес устройства или история посещений. Цифровой след является «цифровой проекцией» («цифровым отпечатком») жизни и личности человека, поскольку в нём явно отражаются интересы человека, его уровень культуры, интеллектуального и социального развития
На сегодняшний день цифровой след кроме технической стороны имеет не менее значимую сторону гуманитарную. Дело в том, что помимо узкоспециализированных вопросов (например, вопросы безопасности, рекламно-маркетинговые вопросы и пр.) увеличивающийся во времени и сетевом пространстве цифровой след фактически выступает «отпечатком жизни и личности человека»: в нём явно видны интенции человека, его интересы, потребности, социальный и интеллектуальный уровень развития, уровень культуры человека; коммуникация человека в Интернете также позволяет судить о его психологических характеристиках.
Данная работа может найти актуальность в разных сферах. При анализе цифровых следов можно выявлять потребности или заинтересованность человека в чем-либо, как следствие можно строить различные классификации пользователей, которые можно использовать в рекламных кампаниях. В данной работе решается одна из задач проекта - идентификация возрастной группы подростков.
Использование цифровых следов пользователей социальных сетей в различных исследованиях получило большую популярность с развитием методов анализа больших данных [5]. При обработке данных социальных сетей возникает проблема неполноты информации, предоставленной пользователями. Пользователи с подобными пробелами не попадают в поле зрения вуза, в результате чего существенно уменьшается количество потенциальных абитуриентов. С появлением единого государственного экзамена и возможностью подачи документов для поступления в несколько вузов (в том числе дистанционно) усилилась конкуренция среди вузов за абитуриентов с высоким уровнем подготовки и мотивации. В связи с этим для региональных вузов возникла проблема удержания в своем регионе выпускников средних и средних профессиональных учебных заведений, и привлечения их к обучению по определенным направлениям. Особо остро стоит эта проблема для естественно-научных, технических и физико-математических направлений, где в ближайшие годы планируется существенное увеличение бюджетных мест. Эти задачи могут быть решены за счет работы с выпускниками школ и СПО, а также за счет организации ранней профориентации. Школьники не выпускных классов привлекаются к образовательным и профориентационным мероприятиям вуза, среди них выявляются высокомотивированные, происходит дальнейшее их сопровождение. Исследование различимости цифровых следов было выполнено на данных из социальной сети «ВКонтакте» для учащихся 9 и 11 классов, и их ровесников, которые были разделены на три группы. Анализ уникальных подписок на сообщества позволил установить существенные различия в группах. Затем на основе градиентного бустинга был построен алгоритм, позволяющий восстанавливать отсутствующую информацию (класс или тип образовательного учреждения) в цифровом следе подростков [5].
В проекте в рамках применения методов анализа больших данных исследуются цифровые следы потенциальных абитуриентов из социальной сети «ВКонтакте». Исследование направлено на выявление признаков одаренности школьников и модельного прогнозирования их будущего направления подготовки для приглашения к поступлению на рекомендованное направление [5].
Цель исследования - разработка алгоритма восстановления информации в цифровом следе пользователя социальных сетей и применение его для идентификации групп подростков, в цифровом следе которых имеется неполная информация по классу и месту учебы.
Основные задачи исследования заключались в следующем:
1) сбор данных пользователей из социальной сети «ВКонтакте», по возрасту соответствующих девятому и одиннадцатому классам;
2) выявление записей в массиве данных с полной и неполной информацией по классу и месту учебы;
3) разделение на возрастные группы записей с полной информацией;
4) анализ подписок на сообщества и определение по ним степени схожести/несхожести возрастных групп подростков (разметка данных);
5) построение алгоритма идентификации цифровых следов школьников (позволяющего восстанавливать отсутствующую информацию по классу и месту учебы)
Результаты исследования предоставлены на конференции «Мой выбор - НАУКА!», апрель 2021г. (Барнаул).
Кроме того, материалы работы включены в публикации:
- X Международная научно-практическая конференция «Высокопроизводительные вычислительные системы и технологии в научных исследованиях, автоматизации управления и производства (ВВСТ-
2020) , май 2020 г., (Барнаул).
- XI Международная научно-практическая конференция «Высокопроизводительные вычислительные системы и технологии в научных исследованиях, автоматизации управления и производства (ВВСТ-
2021) , май 2021 г., (Барнаул).
Общий объем работы изложен на 44 страницах печатного текста и содержит 1 рисунок, 8 таблиц и 3 приложения, список использованных источников литературы включает 17 наименований.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Выполнен анализ цифровых следов в трех возрастных группах подростков, проживающих на территории Алтайского края, по данным профиля и подписок на сообщества социальной сети «ВКонтакте». Была обоснована различимость исследуемых групп (9 класс, 11 класс, ВУЗ) на основе сравнений подписок на сообщества. Выдвинута гипотеза, что имеющегося количества уникальных подписок достаточно для того, чтобы определить группы, к которым относятся пользователи с неполной информацией по классу и месту учебы в профиле.
На следующем этапе был построен алгоритм идентификации пропущенной информации по классу и месту учебы в цифровых следах подростков социальной сети «ВКонтакте». Наилучшая точность, при параметрах (max_depth = 7; learning_rate = 0,1; iterations = 400; class_weights =’Multiclass’) точность предсказания по обученной модели составила 0.72.
На основе обученной модели была проведена идентификация групп для подростков с неполной информацией по возрасту в цифровом следе.
Практическая значимость проекта заключается в расширении целевой аудитории будущих абитуриентов вуза и, как следствие, возможности для университета помочь им с помощью профориентационных мероприятий в социальных сетях более осознанно выбрать образовательную программу. Особенно актуальным этот подход является сейчас в условиях распространения угрозы заболевания COVID-19. В данных условиях перенесение профориентационных и рекрутинговых коммуникаций в социальные сети может оказаться самым эффективным решением.
В дальнейшем планируется использование результатов проекта для разработки маркетинговой стратегии вуза при построении плана профориентационных и рекрутинговых мероприятий.



1. Абдрахманов М.И. Pandas. Работа с данными, 2-е издание. Devpractice Team, 2020. - 171с.
2. Бринк Х., Ричардс Д., Феверолф М. Машинное обучение. - СПб.: Питер, 2017. - 336 с.
3. Грас Д. Data Science. Наука о данных с нуля. - СПб.: БХВ-Петербург, 2017. - 336 с.
4. Дейтел П., Дейтел Х. Python: Искусственный интеллект, большие данные и облачные вычисления. - СПБ.: Питер, 2020 - 864с.
5. Журавлева В.В., Маничева А.С., Фещенко А.В., Берестов А.В. Исследование различимости цифровых следов у различных групп школьников на территории Алтайского края // Высокопроизводительные вычислительные системы и технологии. 2020. Т. 1, № 4. С. 121-125.
6. Лутц М. Изучаем Python. - СПБ.: Символ-Плюс, 2009. - 848с.
7. Маккини У. Python и анализ данных. - М.: ДМК Пресс, 2015. - 402с.
8. Рашка С. Python и машинное обучение - М.: ДМК Пресс, 2017. - 418с.
9. Фрэнкс Б. Революция в аналитике - М.: ООО “Интеллектуальная литература”, 2016. - 311с.
10. Быстрый градиентный бустинг с CatBoost [Электронный ресурс]. - Режим доступа: https://habr.com/ru/company/otus/blog/527554/ (Дата обращения: 10.05.2021)
11. Градиентный бустинг [Электронный ресурс]. - Режим доступа: https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/ (Дата обращения: 20.03.2021)
12. Деревья решений: общие принципы [Электронный ресурс]. - Режим доступа: https://loginom.ru/blog/decision-tree-p1 (Дата обращения: 01.04.2021)
13. Дьяконов А. «Введение в анализ данных и машинное обучение»
[Электронный ресурс]. Режим доступа:
14. Плюсы языка Python [Электронный ресурс] - Режим доступа: https://docs-python.ru/tutorial/zachem-izuchat-python/pljusy-harakteristika-jazyka/ (Дата обращения: 17.05.2021)
15. Соколов Е.А. Градиентный бустинг [Электронный ресурс] - Режим
доступа: https://docplayer.ru/148782410-Lekciya-10-gradientnyy-busting.html
(Дата обращения: 15.04.2021)
16. Шульгин С.Г. Градиентный бустинг [Электронный ресурс] - Режим доступа: https://social.hse.ru/data/2019/02/07/1204055947/Шульгин%20С.Г.%20 Градиентный%20бустинг.pdf (Дата обращения: 22.03.2021)
17. Zhuravleva V.V., Manicheva A.S., Feshchenko A.V., Berestov A.V. Optimization of the algorithm for identifying digital traces of schoolchildren in the Altai Territory // Journal of Physics: Conference Series. 2020.



Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ