Тип работы:
Предмет:
Язык работы:


ПРИМЕНЕНИЕ СЕТЕВОГО АНАЛИЗА В ПРОГНОЗИРОВАНИИ ЛИЧНОСТНЫХ ХАРАКТЕРИСТИК ПОЛЬЗОВАТЕЛЯ СОЦИАЛЬНОЙ СЕТИ

Работа №183501

Тип работы

Дипломные работы, ВКР

Предмет

прикладная информатика

Объем работы80
Год сдачи2022
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
3
Не подходит работа?

Узнай цену на написание


Аннотация 2
ВВЕДЕНИЕ 7
1 Постановка задачи 9
2 Теоретическая часть 10
2.1 Критерии качества данных и методы предварительной обработки данных 10
2.1.1 Очистка данных 11
2.1.2 Сокращение данных 12
2.1.3 Интеграция данных 14
2.1.4 Преобразование данных 15
2.2 Сетевой анализ эго-графов «друзей» 16
2.2.1 Сообщества в эго-графе 18
2.2.2 Предобработка графа для задачи выделения сообществ 19
2.2.3 Алгоритмы кластеризации 20
2.2.3.1 Лувенский алгоритм 21
2.2.3.2 Алгоритм Гирван-Ньюмона 23
2.2.3.3 Алгоритм обнаружения сообщества кликовой перколяции 24
2.3 Построение модели прогнозирования 26
2.3.1 Логистическая регрессия 26
2.3.2 Решающие деревья 27
2.3.3 Метрики качества 27
3 Практическая часть 29
3.1 Подготовка и предобработка данных с результатами тестирования и публичной
информации из социальной сети 29
3.1.1 Структура данных 29
3.1.2 Предобработка данных и подготовка датасета 31
3.2 Анализ графа «друзей» и вычисление его структурных характеристик 35
3.2.1 Предобработка эго-графа 36
3.2.2 Выделение сообществ в эго-графе 37
3.2.3 Расчет структурных характеристик эго-графа 44
3.3 Построение моделей прогнозирования 45
3.3.1 Модели прогнозирования с применением Лувенского метода 48
3.3.2 Модели прогнозирования с применением алгоритма перколяции клики 53
3.4 Программная реализация 54
3.4.1 Алгоритм построения модели прогнозирования и вычисления метрик качества 57
ЗАКЛЮЧЕНИЕ 60
ЛИТЕРАТУРА 61
ПРИЛОЖЕНИЕ А (Описание структуры данных из профиля социальной сети) 64
ПРИЛОЖЕНИЕ Б (Программная реализация загрузки данных) 67
ПРИЛОЖЕНИЕ В (Программная реализация предобработки эго-графов) 68
ПРИЛОЖЕНИЕ Г (Программная реализация применения алгоритмов выделения сообществ) 69
ПРИЛОЖЕНИЕ Д (Программная реализация вычисления структурных сетевых характеристик) 74


В мире более 4,5 млрд людей пользуются интернетом, а социальными сетями - 3,8 млрд жителей. В среднем, человек проводит в интернете 6 часов и 43 минуты каждый день. Каждый россиянин тратит в среднем 2,5 часа в день на социальные сети. [1] Ежедневно миллионы людей посещают различные сайты, размещают фото, подписываются на группы/публичные страницы, добавляются друг в другу в друзья в социальных сетях, совершают и получают телефонные звонки, т.е. оставляют так называемые цифровые следы. Таким образом накапливаются огромные массивы данных, отображающих поведение людей в виртуальном мире. Развитие технологий сбора и обработки этой информации предоставляет новые возможности изучения личностных характеристик человека. [2; 3; 4]
Во многих работах были выявлены устойчивые взаимосвязи между индивидуально¬психологическими характеристиками и поведением людей в Интернете. Так, черты личности влияют на уровень общей интернет-активности человека в социальных сетях и используемую лексику. [5] Кроме того было проведено множество исследований, в результате которых стало понятно, что индивидуальные черты характера человека имеют значительное влияние на формирование его круга общения в сети. [6]
Сегодня все больше ученных задается вопросом: можно ли, используя цифровой след, выявить личные черты и эмоциональное состояние человека?
Основным источником цифровых следов выступают социальные сети (Facebook, Вконтакте, Twitter, Инстаграм, и другие). На основании цифровых следов чаще всего осуществляется прогноз личностных черт (в основном это черты, относящиеся к «Большой пятерке»: открытость опыту, добросовестность, экстраверсия, дружелюбие, нейротизм) [2] и эмоциональных состояний (тревоги, депрессии и др.) [3]
В данной работе рассматриваются различные варианты выявления взаимосвязи между поведением пользователей в социальной сети «Вконтакте» и их личностными характеристиками. Исследование включает анализ различных методов предобработки и подготовки данных цифрового следа, анализ структуры эго-сетей, сформированных на основе информации о «дружбе», путем выделения сообществ и расчета структурных сетевых характеристик, а также подбор классических алгоритмов машинного обучения для задачи классификации, подбор их гиперпараметров и настройку.
В зарубежной литературе можно найти множество исследований, которые описывают разные подходы и методы для прогнозирования психологических характеристик на основе социальных сетей, как правило, это Facebook или Twitter. Среди работ подобного плана можно отметить работы «Our Twitter Profiles, Our Selves: Predicting Personality with Twitter» David Stillwell, Jon Crowcroft [7]. В данном исследовании была проанализирована взаимосвязь между личностью и различными типами пользователей Twitter. В работе описывается способ точного прогнозирования личностных черт пользователя на основе трех общедоступных признаков в профиле: подписок, подписчиков и перечисленных показателей. В статье Lambiotte R., Kosinski M. «Tracking the digital footsprints of personality» представлен обзор литературы, показывающей, как широко распространенные записи цифровых следов, такие как профиль в Facebook могут использоваться для прогнозирование психологических характеристик человека. [8]
Большинство отечественных исследований сосредоточено на взаимосвязи цифрового следа и обучающего процесса. В работе Мацута В.В., Киселева П.Б., Фещенко А.В., Гойко В.Л. «Исследование потенциала социальных сетей для выявления одаренных старшеклассников» рассматривается структура и содержание социальной сети «Вконтакте» для оценки компонентов одаренности. [9] Есть и работы, направленные на определения уровня выраженности личностных черт пользователя на основании персональных профилей социальной сети. Например, работа Станкевича М. А., Смирновой И. В., Игнатьева Н. А., Кисельникова Н. В. «Выявление личностных черт у пользователей социальной сети Вконтакте». [10] Однако в этой работе, как и многих других, взаимосвязи определяются на основе лингвистического анализа текстов пользователя и открытых данных из профиля, не беря во внимание структуру связей между пользователями.
Исследований, в которых прогнозируются личностные характеристики на основе сетевого анализа, сравнительно не много, или же они опираются не на данные, полученные из социальных сетей, а из других источники. К примеру, в работе J. Statiano, B. Lepri, F. Pianesi, N. Sebe «Friends don't Lie - Inferring personality traits from social network structure» исследуется взаимосвязь между структурными сетевыми характеристиками (включая эго¬сети) и личностью, на основании данных полученных из смартфона человека (метаданные входящих звонков и сообщений). [11]
Таким образом, актуальность работы заключается в синтезе различных подходов к прогнозирование личностных характеристик на основе цифровых следов из социальной сети. Немаловажно, что данные, используемые в исследовании, являются абсолютно уникальными и реальными. Результаты такого анализа могут быть использованы в разных целях: повышение качества образования, прием сотрудников на работу, выдача банковских кредитов и другое.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы были рассмотрены и применены различные методы предобработки и подготовки реальных данных, включая выделение кластеров, агрегирование категориальных признаков и частичную замену пропущенных значений.
Также был проведен сетевой анализ эго-графов «друзей» респондентов из социальной сети «Вконтакте», в рамках которого было рассмотрено три метода выделения сообществ (Лувенский метод, алгоритм Гирван-Ньюмона, метод перколяции клик), проведен их сравнительный анализ и предложены сетевые структурные характеристики, которые могут выступать в качестве признаков для моделей прогнозирования личностных характеристик.
Для построения моделей прогнозирования было рассмотрено два классических алгоритма машинного обучения (Логистическая регрессия и Решающие деревья). Чтобы улучшить модели были подобраны их гиперпараметры, а также наиболее значимые признаки, поступающие на вход.
При оценке качества прогнозирования, на основании построенных моделей, использовалось три метрики (precision, recall и Fl-мера), которые рассчитывались при перекрестной проверки.
Таким образом, в рамках данной работе были выявлены взаимосвязи между цифровым следом (публичная информация из профиля и эго-граф «друзей») пользователей социальной сети «Вконтакте» и их личностными характеристиками, а также построены модели прогнозирования личностных характеристик на основании выявленных взаимосвязей.



1. Kemp S. Digital 2020: 3.8 billion people use social media - 2020. - URL:
https://wearesocial.com/blog/2020/01/digital-2020-3-8-billion-people-use-social-media (дата обращения 26.02.2022)
2. Azucar, D. Predicting the big 5 personality traits from digital footprints on social media: A meta-analysis / D. Azucar, D. Marengo, M. Settanni // Personality and Individual Differences.
- 2018. - Vol. 124, - P. 150-159.
3. Detecting depression and mental illness on social media: an integrative review / S.C. Guntuku, D. B. Yaden, M. L. Kern, L. H. Ungar [et al.] // Current Opinion in Behavioral Sciences.
- 2017. - Vol. 18, - P. 43-49.
4. Латынов В. В. Прогнозирование психологических характеристик / В. В. Латынов, В. В. Овсянникова // Журнал Высшей школы экономики. Психология. - 2020. - Т.17. - № 1. - С. 166-180.
5. Kuss D. J. Online social networking and addiction. A review of the psychological literature / D.J. Kuss, M.D. Griffiths // International Journal of Environmental Research and Public Health. - 2011. - Vol. 8. - P. 3528-3552.
6. Batini C. Data quality / C. Batini, M. Scannapieca // - Berlin: Heidelberg, 2006. - P. 19-23.
7. Quercia D. Our Twitter Profiles, Our Selves: Predicting Personality with Twitter / D. Quercia, M. Kosinski, D. Stillwell, J. Crowcroft // PASSAT: IEEE Third International Confernece on Social Computing (SocialCom), Boston, 9-11 Oct., 2011. - Boston, 2011. - P. 26-28.
8. Lambiotte R. Tracking the Digital Footprintsof Personality / R. Lambiotte, M. Kosinski // Proceedings of the IEEE. - 2014. - Vol. 102, №12. - P. 1934-1939.
9. Мацута В. В. Исследование потенциала социальных сетей для выявления
одаренных старшеклассников / В. В. Мацута, П. Б. Киселев, А. В. Фещенко, В. Л. Гойко // Психология и психотехника. - 2017. - № 4. - С. 104-121. - DOI 10.7256/2454¬
0722.2017.4.24931. - EDN YMVCQX.
10. Станкевич М. А. Выявление личностных черт у пользователей социальной сети Вконтакте / М. А. Станкевич, Н. А. Игнатьев, И. В. Смирнов, Н. В. Кисельникова // Вопросы кибербезопасности. - 2019. - № 4(32). - С. 80-87. - DOI 10.21681/2311-3456-2019-4-80-87.
- EDN HUPRMJ.
11. Staiano J. Friends don’t Lie - Inferring Personality Traits from SocialNetwork Structure / J. Staiano, B. Lepri, N. Aharony, F. Pianesi // UbiComp, Pittsburgh, 5-8 Sep., 2012. - Pittsburgh, 2012. - P. 43-52. - DOI 10.1145/2370216.2370266
12. Han J. Data Mining: Concepts and Techniques, 3rd edition / J. Han, M. Kamber, J. Pei - Waltham: Elsevier, 2011. - P. 83-120.
13. Майков, К. А. Обзор методов предобработки, используемых для решения задач классификации в условиях неполноты данных / К. А. Майков, П. А. Гаврилов // Вестник Рязанского государственного радиотехнического университета. - 2016. - № 55. - С. 140¬145. - EDN WEZMER.
14. Garcia-Laencina P. J. Pattern classification with missing data: a review / P. J. Garcia- Laencina, J. L. Sancho-Gomez, A. R. Figueiras-Vidal // Neural Computing and Applications. - 2010. - Vol.19, №.2. - P. 263-282.
15. Data Reduction in Data Mining // Geeks for Geeks - М., - 2020. - URL: https://www.geeksforgeeks.org/data-reduction-in-data-mining/ (дата обращения 14.10.2021)...28


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ