Введение 3
1 Обзор предметной области 7
1.1 Краткая история исследования депрессии 7
1.2 Проявления депрессии 8
1.3 Депрессия и социальные сети 9
2 Использованные технологии 12
2.1 Python 12
2.2 Программные библиотеки 12
2.3 Google Colaboratory 14
2.4 VK API 15
3 Обработка текстовых записей 16
3.1 Создание текстового набора данных 16
3.2 Предварительная обработка текстовых данных 19
3.3 Рекуррентные нейронные сети 20
3.4 Transfer learning 24
4 Обработка изображений 27
4.1 Создание датасета с изображениями 27
4.2 Сверточные нейронные сети 28
5 Формирование отчета 30
Заключение 32
Список использованных источников 33
Приложение А. Исходный код модуля сбора данных 39
Приложение Б. Классификация текстовых записей 43
Приложение В. Исходный код модуля генерации отчета 46
На сегодняшний день проблема депрессии в современном мире является одной из наиболее важных и актуальных. По данным Всемирной организации здравоохранения (ВОЗ), депрессия — одна из основных болезней, приводящих к инвалидности. Более чем 300 миллионов людей в мире страдают от депрессии [1].
Согласно многочисленным исследованиям депрессия ведет к риску развития ряда серьезных заболеваний. Так, из статьи “Bidirectional associations between clinically relevant depression or anxiety and chronic obstructive pulmonary disease” следует, что хроническая депрессия и тревожность увеличивает риск развития хронической обструктивной болезни легких (ХОБЛ) на 43% [2]. По данным других исследований, депрессия повышает риск развитий артериальной гипертонии (АГ) [3], ишемической болезни сердца (ИБС) [4], и на 60% повышает возможность развития сахарного диабета (СД) 2-го типа [5].
В худшем случае продолжительная депрессия способна привести к самоубийству. Каждый год приблизительно 800 000 человек погибают вследствие суицида — второй по значимости причины смерти среди людей в возрасте 15-29 лет.
Несмотря на распространенность и серьезность данного заболевания, все еще остается проблема диагностирования депрессии. Так, согласно результатом исследования КООРДИНАТА наблюдается недостаточная подготовка специалистов в области соматических заболеваний в плане диагностики психических расстройств [6]. Согласно статистике, у пациентов, находящихся под наблюдением в амбулаторно-поликлинических учреждениях (АПУ), состояние депрессии было выявлено в 20 - 60% случаев, тревоги - 20 - 80%, и в 50 - 80% случаев данные состояния были не выявлены
Вышеизложенные данные подводят к проблеме диагностирования депрессии и тревожности. Необходим эффективный способ выявления признаков психологических расстройств. Одним из решений данной проблемы может являться анализ социальных сетей.
Молодые люди в среднем тратят до 160 минут на общение в социальных сетях и мессенджерах [9]. Как видно, представители молодого и среднего поколения крайне вовлечены в данную деятельность. При этом также наблюдается тенденция взросления социальных сетей. Сеть приросла, главном образом, в результате прихода пользователей старше 45 лет. Таким образом, социальные сети сейчас довольно активно используются людьми всех возрастов.
В России лидером среди социальных сетей уже не первый год является социальная сеть ВКонтакте. Около 25% жителей Российской федерации - активные пользователи ВКонтакте. При этом, 23,3% авторов - пользователи в возрасте от 18 до 24 лет [10]. Именно молодые люди в возрасте от 18 до 25 чаще всего подвержены депрессии и имеют суицидальные мысли.
Анализ социальных сетей позволяет в короткие сроки собрать большое количество данных о человеке. Также, до 70% пациентов, ожидающих медицинской помощи и имеющих аккаунт в социальной сети, дают разрешение пользоваться автоматически подключаемыми к их медицинским картам данными из их аккаунтов в социальных сетях - для уточнения диагноза и проведения научных исследований [11].
Аккаунт в социальных сетях содержит важную информацию о пользователе, которая может быть использована при анализе. Так, на основе данной информации можно определить возраст автора [12], пол, характер [13], работу [14], наличие шизофрении [15] или посттравматического стрессовое расстройство (ПТСР) [16], определить суицидальную идеацию [17] и депрессию [18].
Изменения психологического здоровья человека может быть замечено при анализе контента аккаунта в социальной сети. Исследования показали связь между тем, что пишет человек в своем аккаунте [19] или какие размещает фотографии [20], и тем, какое психологическое состояние у человека в реальности.
Несмотря на то, что анализ социальных сетей может быть мощным инструментом для выявления признаков депрессии и тревожности у пользователей и оказания им соответствующий помощи, было выявлено, что культура оказания психологической помощи тем, кто может сообщать через свои публикации в социальной сети об ухудшении психического здоровья или искать именно в социальной сети поддержку, еще недостаточно хорошо развита в русскоязычном мире по сравнению с англоязычным [21].
Таким образом, целью данной работы являлась разработка инструмента для анализа русскоязычных социальных сетей, выявляющего признаки депрессивных расстройств пользователя.
Задачи, выполнение которых необходимо для достижения поставленной цели:
1. Реализовать модуль сбора информации о пользователе из социальной сети ВКонтакте.
2. Определить методы анализа текстовых сообщений и изображений на предмет депрессивных расстройств.
3. Реализовать систему, определяющую уровень негативного контента на странице пользователя, на основе интеллектуального анализа данных.
Для эффективного решения поставленных в дипломной работе задач в качестве методологической основы были выбраны различные методы познания: анализ, классификация, моделирование, сравнение
В результате выполнения данной дипломной работы была достигнута поставленная цель - разработан инструмент для анализа русскоязычных социальных сетей, выявляющий признаки депрессивных расстройств пользователя.
В ходе выполнения данной дипломной работы были выполнены следующие задачи:
1. Реализован модуль сбора информации о пользователе из социальной сети ВКонтакте, составлен датасет с русскоязычными записями пользователей социальной сети, который может быть использован для дальнейших целей.
2. Определены методы анализа текстовых записей и изображений, реализована возможность определения записей и изображений, имеющих негативный оттенок.
3. Реализована система, позволяющая проанализировать текстовой и графический контент со страницы конкретного пользователя и сформировать отчет о данном анализе, а также вывести вероятность того, что данный пользователь страдает от депрессивных расстройств.
1. Depression, World health organization [Электронный ресурс]. - URL:
https://www.who.int/news-room/fact-sheets/detail/depression (дата обращения: 12.03.2019).
2. Adantis, Е. Bidirectional associations between clinically relevant depression or anxiety and chronic obstructive pulmonary disease (COPD): a systematic review and meta-analysis [Text] / E. Atlantis, B. Cochrane, R Fahey, S. Smith // Chest. - 2013. - R 766-777.
3. Lavorato, D. Major depression as a risk factor for high blood pressure: epidemiologic evidence from a national longitudinal study [Text] / D. Lavorato, S. Patten, J. Williams // J Psychosom Med. - 2009. - P. 273-279.
4. Rugulies, R. Depression as a predictor for coronary heart disease. A review and meta-analysis [Text] / R. Rugulies // Am J Prev Med. - 2002. - P. 51-61.
5. Mannucci, E. Depression as a risk factor for diabetes: a meta-analysis of longitudinal studies [Text] / E. Mannucci, F Rotella. // J Clin Psychiatry. - 2013. - P. 31-37.
6. Оганов, Р.Г. Программа КООРДИНАТА Клинико-эпидемиологическая программа изучения депрессии в кардиологической практике у больных артериальной гипертонией и ишемической болезнью сердца): результаты терапевтической части многоцентрового исследования [Текст] / Р.Г. Оганов, Г.В. Погосова, Е.И. Чазов и др. // Тер арх. - 2006. - С. 38-44.
7. Белялов, Ф.И. Психические расстройства в практике терапевта [Текст] / Ф.И. Белялов // Иркутск: РИО ИГМАПО. - 2014.
8. Are Some Age Groups More Prone to Depression Than Others? // USNews.
[Электронный ресурс]. - URL: https://health.usnews.com/ health-care/patient-advice/articles/2017-05-02/are-some-age-groups-more-pr one-to-depression-than-others (дата обращения: 14.03.2019).
9. Mander, J. GWI Social Summary Q1 2017 [Text] / J. Mander, F. McGrath. // GlobalWeblndex. - 2017.
10. Социальные сети в России: Цифры и тренды, осень 2018, Brand Analytics. [Электронный ресурс]. - URL: https://br-analytics.ru/blog/ socseti-v-rossii-osen-2018/ (дата обращения: 24.03.2019).
11. Padrez, К.А. Linking social media and medical record data: a study of adults presenting to an academic, urban emergency department [Text] / K.A. Padrez, L. Ungar, H.A. Schwartz, R. J. Smith // BMJ quality & safety. -2015.-P. 414-423.
12. McKeown, K. Age Prediction in Blogs: A Study of Style, Content, and Online Behavior in Pre- and Post-Social Media Generations [Text] / K. McKeown, S. Rosenthal. // Computer Science. - 2011.
13. Durme, B. Inferring user political preferences from streaming communications [Text] / B. Durme, G. Coppersmith, S. Volkova // In Proceedings of the 52nd annual meeting of the ACL. - 2014. - P. 186-196.
14. Aletras, N. An analysis of the user occupational class through twitter content [Text] / N. Aletras, V. Lampos, D. Preotiuc-Pietro // ACL. - 2015.
15. Coppersmith, G. Quantifying the language of schizophrenia in social media [Text] / G. Coppersmith, G. Hollingshead, M. Mitchell. // Biomedical Informatics Insights. - 2015.
16. Pedersen, T. Screening Twitter Users for Depression and PTSD with Lexical Decision Lists [Text] / T. Pedersen // Association for Computational Linguistics. - 2015. -P. 46-53.
17. Margaret M. Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality [Text] /
M. Mitchell, Р. Resnik, R. Resnik. // Association for Computational Linguistics. - 2016.
18. Almeida, H. Detecting Early Risk of Depression from Social Media User-generated Content [Text] / H. Almeida, A. Briand, M. Meurs // CLEF. -2017.
19. Benton, A. Multi-Task Learning for Mental Health using Social Media Text [Text] / A. Benton, D. Hovy, M. Mitchell // Association for Computational Linguistics. - 2016.
20. Andalibi, N. Depression-related Imagery on Instagram [Text] / N. Andalibi,
P. Ozturk , A. Forte // CSCW. - 2015. -P. 231-234.
21. Боголюбова, О. СОЦИАЛЬНЫЕ СЕТИ КАК НОВАЯ СРЕДА ДЛЯ МЕЖДИСЦИПЛИНАРНЫХ ИССЛЕДОВАНИЙ ПОВЕДЕНИЯ ЧЕЛОВЕКА [Текст] / О.И. Боголюбова, Я.А.Ледовая, Р.В.Тихонов // Вестник Санкт-Петербургского университета. Серия 16. Психология. Педагогика. - 2017.
22. Historical Understandings Of Depression MentalHelp.Net. [Электронный
ресурс]. - URL:
https://www.rnentalhelp.net/articles/histoiical-understandings-of-depression/ (дата обращения: 16.04.2019).
23. Arndt, J. A History of Depressed Skull Fractures from Ancient Times to 1800 [Text] / J. Arndt, J.C. Ganz. // Journal of the History of the Neurosciences. - 2014. -P. 233-51.
24. Lorenzo-Luaces, L. History of Depression [Text] / L. Lorenzo-Luaces // The Oxford Handbook of Mood Disorders. - 2016. - P. 1-24.
25. Депрессия // ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ НАУЧНОЕ УЧРЕЖДЕНИЕ “НАУЧНЫЙ ЦЕНТР ПСИХИЧЕСКОГО
ЗДОРОВЬЯ”. [Электронный ресурс]. - URL:
http://www.psychiatry.ru/stat/122 (дата обращения: 24.04.2019).
26. De Choudhury, М. Predicting Depression via Social Media [Text] / M. De Choudhury, S. Counts, E. Horvitz, M. Gamon // ICWSM. - 2013.
27. Armstrong, W. The University of Maryland CLPsych 2015 Shared Task System [Text] / W. Armstrong, L. Claudino, T. Nguyen, P. Resnik // Association for Computational Linguistics. - 2015. - P. 54-60.
28. Boyatzis, CJ. Children’s emotional associations with colors [Text] / CJ. Boyatzis, R. Varghese // J Genet Psychol. - 1994. - P. 77-85.
29. Carruthers, HR. The Manchester Color Wheel: development of a novel way of identifying color choice and its validation in healthy, anxious and depressed individuals [Text] / HR. Carruthers, J. Morris, N. Tarrier, PJ. Whorwell. // BMC Med Res Methodol. - 2010.
30. Hemphill, M. A note on adults’ color-emotion associations [Text] / M. Hemphill // J Genet Psychol. - 1996. - P. 275-280.
31. Barrick, CB. Color sensitivity and mood disorders: biology or metaphor? [Text] / CB. Barrick, El. Correa, D. Taylor // J Affect Disord. - 2002.
32. GReece, A. Instagram photos reveal predictive markers of depression [Text] / A. GReece, C.M. Danforth // - 2017. - P. 67-71.
33. Python About, Python software foundation. [Электронный ресурс]. - URL: https://www.python.org/about/ (дата обращения: 21.04.2019).
34. Matplodib, User’s guide. [Электронный ресурс]. - URL:
https://matplotlib.org/users/index.html (дата обращения: 21.04.2019).
35. Keras, Why use Keras. [Электронный ресурс]. - URL:
https://keras.io/why-use-keras/ (дата обращения: 21.04.2019).
36. Francois Chollet, Twitter. [Электронный ресурс]. - URL:
https://twitter.com/fchollet/status/776455778274250752 (дата обращения:
21.04.2019) .
37. TensorFlow, Why TensorFlow. [Электронный ресурс]. - URL: https://www.tensorflow.org/about (дата обращения: 21.04.2019).
38. Welcome To Colaboratory. [Электронный ресурс]. - URL:
https://colab.research.google.com/notebooks/welcome.ipynb#scrollTo=xitpl qMNk_Hc (дата обращения: 21.04.2019).
39. Словарь эмоций. [Электронный ресурс]. - URL:
http://psychpage.com/learning/libraiy/assess/feelings.html (дата
обращения: 02.04.2019).
40. MyStem Яндекс. [Электронный ресурс]. - URL:
https://tech.yandex.ru/mystem/ (дата обращения: 05.04.2019).
41. Huang, X. Recurrent Neural Network for Text Classification with Multi-Task Learning [Text] /X. Huang, R Liu, X. Qiu. // IJCAF16 Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. - 2016. - P. 2873-2879.
42. Maheshwari, A. Report on Text Classification using CNN, RNN & HAN,
2017. [Электронный ресурс]. - URL:
https://medium.com/jatana/report-on-text-classification-using-cnn-rnn-han-f 0e887214d5f (дата обращения: 17.04.2019).
43. Chen, X. Recurrent neural network language model training with noise contrastive estimation for speech recognition [Text] / X. Chen, M.J.F. Gales, X. Liu, P.C. Woodland // ICASSP. - 2015.
44. Chen, Z. Integration of Speech Enhancement and Recognition using Long-Short Term Memory Recurrent Neural Network [Text] / Z. Chen, S. Erdogan, H. Hershey, S. Watanabe, Z. Watanabe // Interspeech. - 2015.
45. Robinson, S. Building a text classification model with TensorFlow Hub and Estimators, 2018. [Электронный ресурс]. - URL: https://medium.com/tensorflow/building-a-text-classification-model-with-ten sorflow-hub-and-estimators-3169e7aa568 (дата обращения: 28.04.2019).
46. Bengio, Y. Gradient-based learning applied to document recognition [Text] /
Y. Bengio, L. Bottou, R Haffner, Y. Lecun. // Electronics Letters. - 1994.
47. Shensa, A. Social Media Use and Depression and Anxiety Symptoms: A Cluster Analysis [Text] / A. Shensa, J.E. Sidani, M.A. Dew, B.A. Primack // Am J Health Behav. - 2018. - R 116-128.