Введение 4
Глава 1. Постановка задачи 5
Глава 2. Анализ социальной сети Твиттер 6
2.1. Контент в Твиттере 6
2.1.1 Социальный граф пользователей 6
2.1.2 Контекст твитов 7
Глава 3. Обзор существующих решений 8
3.1. Методы, основанные на содержании твитов 8
3.1.1 Методы, основанные на диалектах 8
3.1.1.1 Выявление локальных слов 9
3.1.1.2 Сопоставление локальных слов местоположениям 10
3.1.2 Методы, основанные на геопозициях 11
3.2. Методы, основанные на социальном графе пользователей 12
3.2.1 Методы, основанные на дружбе 13
3.2.2 Методы, основанные на социальной близости 13
3.3. Методы, основанные на контексте твитов 15
Глава 4. Используемые данные 17
4.1. Данные, используемые для обучения моделей 17
4.2. Сбор данных о подписчиках бизнес-аккаунта 18
Глава 5. Выбор и обучение моделей 20
5.1. Модель GCN 20
5.2. Модель DCCA 22
5.3. Обучение моделей 23
5.3.1 Предварительная обработка данных 23
5.3.2 Переход к задаче классификации 23
5.3.3 Описание параметров обучаемых моделей 24
5.3.4 Используемые метрики 25
5.3.5 Результаты обучения моделей 26
Глава 6. Визуализация полученных геопозиций 28
Выводы 30
Заключение 31
Список литературы
После нескольких десятилетий онлайн-покупок, процент потребителей, предпочитающих делать покупки в обычных розничных магазинах, составляет 85,7% [1]. Многие люди предпочитают покупать одежду и обувь в офлайн магазинах, где предоставляется возможность примерить различные модели и приобрести товар без ожидания его доставки. Именно поэтому небольшие бренды, изначально реализующие товары посредством онлайн-продаж, открывают офлайн магазины. При открытии офлайн магазина обычно проводятся маркетинговые исследования и анализ рынка. В данном случае может быть полезным изучить аудиторию аккаунтов бренда в социальных сетях.
Социальные сети предлагают много преимуществ для владельцев бизнеса. Располагая более чем 300 млн активных пользователей в месяц, [2] Твиттер является эффективным инструментом для поиска потенциальных клиентов и взаимодействия с ними. В последнем исследовании “Hootsuite Social Trends 2021 Survey”, проводимом в конце 2020 года, 33% опрошенных выделили Твиттер как наиболее эффективную платформу для достижения бизнес-целей [3].
Информация о месте проживания заинтересованных в продукте или услуге людей помогает грамотно скорректировать бизнес-стратегию и получить больше прибыли. Основываясь на геопозиции, определенной по личным страницам пользователей, можно исследовать местоположение группы клиентов. Однако, из-за того, что при создании аккаунта указание геопозиции не является обязательным полем для заполнения, поле с указанной пользователем геопозицией чаще всего остается незаполненным или имеет недостоверную информацию, что было подтверждено Hecht и др. в [4]. Поэтому, внимание многих исследователей направлено на поиск решений для определения местоположений пользователей на основе их аккаунтов в социальной сети. Также стоит отметить, что количество подписчиков аккаунта может быть очень большим, что делает невозможным получение информации на основе всех подписанных пользователей без использования программных реализаций алгоритмов анализа данных.
В рамках данной работы был проведен обзор существующих подходов для определения геопозиций пользователей в социальной сети Твиттер. Были рассмотрены различные методы, работающие с разнотипными данными пользователей.
Далее были отобраны доступные для обучения размеченные данные и построена система по сбору информации о подписчиках бизнес-аккаунта. Основываясь на особенностях полученных данных, были выбраны алгоритмы, наиболее подходящие для решения конкретной задачи. Над ними был проведен ряд экспериментов, который позволил выявить метод, который лучше всего справляется с поставленной задачей. Применяя данный метод к реальным неразмеченным данным о пользователях, можно получать координаты их местоположения с достаточной точностью.
Полученные геопозиции подписчиков бизнес-аккаунта были представ-лены в виде тепловой карты, что позволило наглядно изучить их расположение в рассматриваемой области. Реализованная таким образом визуализация помогает анализировать местоположения потенциальных клиентов и определять места их максимального сосредоточения.
Таким образом, достигнутые в рамках данной работы результаты позволяют считать поставленную задачу выполненной. Рассматриваемые в работе алгоритмы могут быть успешно применены для определения местоположения пользователей социальной сети Твиттер. Исходный код про-граммы, содержащий в себе все этапы работы, представлен в открытом репозитории GitHub [48].
[1] The Unexpected Rise of the Online to Offline Movement in Retail // BEACHHEAD URL:https://medium.com/beachhead-network/the-unexpected-rise-of-the-online-to-offline-movement-in-retail-80b430680fb8 (дата обращения: 20.05.21).
[2] 10 Twitter Statistics Every Marketer Should Know in 2020 // Oberlo URL: https://www.oberlo. com/blog/twitter-statistics (дата обращения: 30.05.2020)
[3] Social Trends 2021 Survey // HootsuiteURL:https://www.hootsuite.com/pages/social-trends-2021 (дата обращения: 20.05.21).
[4] B. Hecht, L. Hong, B. Suh, and E. H. Chi, “Tweets from justin bieber’s heart: The dynamics of the location field in user profiles,”
[5] J. McGee, J. A. Caverlee, and Z. Cheng, “A geographic study of tie strength in social media,” in Proc. ACM Conf. Inf. Knowl. Manage., 2011, pp. 2333-2336.
[6] J. McGee, J. Caverlee, and Z. Cheng, “Location prediction in social media based on tie strength,” in Proc. ACM Conf. Inf. Knowl. Manage., 2013, pp. 459-468.
[7] R. Compton, D. Jurgens, and D. Allen, “Geotagging one hundred million twitter accounts with total variation minimization,” in Proc. IEEE Int. Conf. Big Data, 2014, pp. 393-401.
[8] D. Jurgens, “That’s what friends are for: Inferring location in online social media platforms based on social relationships,” in Proc. Int. Conf. Weblogs Social Media, 2013, pp. 273-282.
[9] Бычок или хабарик? Диалекты регионов России // ДискурсURL:https://discours.io/articles/culture/bychok-ili-habarik-dialekty-regionov-rossii (дата обращения: 21.05.21).
[10] K. Ren, S. Zhang, and H. Lin, “Where are you settling down: Geo-locating twitter users based on tweets and social networks,” in Proc. Asia Inf. Retrieval Symp., 2012, pp. 150-161.
[11] B. Han, P. Cook, and T. Baldwin, “Geolocation prediction in social media data by finding location indicative words,” in Proc. Conf. Comput. Linguistics: Tech. Papers, 2012, pp. 1045-1062
[12] J. Mahmud, J. Nichols, and C. Drews, “Where is this tweet from? inferring home locations of twitter users,” in Proc. Int. Conf. Weblogs Social Media, 2012, pp. 511-514.
[13] B. Han, P. Cook, and T. Baldwin, “Text-based twitter user geolocation prediction,” J. Artif. Intell. Res., vol. 49, no. 1, pp. 451-500, 2014
[14] Z. Cheng, J. Caverlee, and K. Lee, “You are where you tweet: A content¬based approach to geo-locating twitter users,” in Proc. ACM Conf. Inf. Knowl. Manage., 2010, pp. 759-768
[15] L. Backstrom, J. Kleinberg, R. Kumar, and J. Novak, “Spatial variation in search engine queries,” in Proc. Conf. World Wide Web, 2008, pp. 357-366.
[16] K. Ryoo and S. Moon, “Inferring twitter user locations with 10 km accuracy,” in Proc. World Wide Web Conf. Companion Volume, 2014, pp. 643-648.
[17] R. Li, S. Wang, and K. C.-C. Chang, “Multiple location profiling for users and relationships from social network and content,” Proc. VLDB Endowment, vol. 5, no. 11, pp. 1603-1614, 2012. in Proc. Conf. Human Factors Comput. Syst., 2011, pp. 237-246
[18] A. Rahimi, D. Vu, T. Cohn, and T. Baldwin, “Exploiting text and network context for geolocation of social media users,” in Proc. Conf. North Amer. Chapter Assoc. Comput. Linguistics: Human Language Technol., 2015, pp. 1362-1367.
[19] J. Mahmud, J. Nichols, and C. Drews, “Home location identification of twitter users,” ACM Trans. Intell. Syst. Technol., vol. 5, no. 3, pp. 47:1-47:21, 2014
[20] B. P. Wing and J. Baldridge, “Simple supervised document geolocation with geodesic grids,” in Proc. Annu. Meeting Assoc. Comput. Linguistics: Human Language Technol., 2011, pp. 955-964.
[21] J. M. Ponte and W. B. Croft, “A language modeling approach to information retrieval,” in Proc. ACM SIGIR Conf. Res. Develop. Inf. Retrieval, 1998, pp. 275-281.
[22] I. J. Good, “The population frequencies of species and the estimation of population parameters,” Biometrika, vol. 40, no. 3-4, pp. 237-264, 1953.
[23] B. Wing and J. Baldridge, “Hierarchical discriminative classification for text-based geolocation,” in Proc. Conf. Empirical Methods Natural Language Process., 2014, pp. 336-348.
[24] S. Roller, M. Speriosu, S. Rallapalli, B. Wing, and J. Baldridge, “Supervised text-based geolocation using language models on an adaptive grid,” in Proc. Joint Conf. Empirical Methods Natural Language Process. Comput. Natural Language Learn., 2012, pp. 1500- 1510
[25] Y. Miura, M. Taniguchi, T. Taniguchi, and T. Ohkuma, “A simple scalable neural networks based model for geolocation prediction in twitter,” in Proc. Workshop Noisy User-Generated Text, 2016, pp. 235-239.
[26] Y. Miura, M. Taniguchi, T. Taniguchi, and T. Ohkuma, “Unifying text, metadata, and user network representations with a neural network for geolocation prediction,” in Proc. Annu. Meeting Assoc. Comput. Linguistics, 2017, pp. 1260-1272.
[27] A. Rahimi, T. Cohn, and T. Baldwin, “A neural model for user geolocation and lexical dialectology,” in Proc. Annu. Meeting Assoc. Comput. Linguistics, Volume 2: Short Papers, 2017, pp. 209- 216.
[28] C. A. Davis Jr, G. L. Pappa, D. R. R. de Oliveira, and F. de L Arcanjo, “Inferring the location of twitter messages based on user relationships,” Trans. GIS, vol. 15, no. 6, pp. 735-751, 2011
[29] L. Kong, Z. Liu, and Y. Huang, “SPOT: Locating social media users based on social network context,” Proc. VLDB Endowment, vol. 7, no. 13, pp. 1681-1684, 2014.
[30] D. Rout, K. Bontcheva, D. Preotiuc-Pietro, and T. Cohn, “Where’s ^ @wally?: A classification approach to geolocating users based on their social ties,” in Proc. ACM Conf. Hypertext Social Media, 2013, pp. 11-20.
[31] H. Kwak, C. Lee, H. Park, and S. Moon, “What is twitter, a social network
or a news media?” in Proc. Conf. World Wide Web, 2010, pp. 591-600.
[32] R. Li, S. Wang, H. Deng, R. Wang, and K. C.-C. Chang, “Towards social user profiling: Unified and discriminative influence model for inferring home locations,” in Proc. ACM Conf. Knowl. Discovery Data Mining, 2012, pp. 1023-1031
[33] J. Mahmud, J. Nichols, and C. Drews, “Home location identification of twitter users,” ACM Trans. Intell. Syst. Technol., vol. 5, no. 3, pp. 47:1-47:21, 2014.
[34] H. Efstathiades, D. Antoniades, G. Pallis, and M. D. Dikaiakos, “Identification of key locations based on online social network activity,” in Proc. IEEE/ACM Conf. Adv. Social Netw. Anal. Mining, 2015, pp. 218-225.
[35] A. Poulston, M. Stevenson, and K. Bontcheva, “Hyperlocal home location identification of twitter profiles,” in Proc. ACM Conf. Hypertext Social Media, 2017, pp. 45-54.
[36] Allbirds // URL:https://www.allbirds.com (дата обращения: 25.04.2021)
[37] Selenium // URL:https://www.selenium.dev/documentation/en(дата обращения: 21.04.2021)
[38] Kipf, T.N. and M. Welling, 2017. Semisupervised classification with graph convolutional networks. International Conference on Learning Representations (ICLR)
[39] Andrew, G., K. Bilmes and K. Livescu, 2013. Deep canonical correlation analysis. International Conference on Machine Learning, pp. 1247-1255.
[40] Rupesh Kumar Srivastava, Klaus Greff, and Jurgen " Schmidhuber. 2015. Highway networks. arXiv preprint arXiv:1505.00387.
[41] Harold Hotelling. 1936. Relations between two sets of variates. Biometrika, 28(3/4):321-377
[42] Rahimi, A., T. Cohn and T. Baldwin, 2018. Semi-supervised User Geolocation via Graph Convolutional Networks. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (volume 1), Association for Computational Linguistics, pp: 2009-2019.
[43] Afshin Rahimi, Trevor Cohn, and Timothy Baldwin. 2017b. A neural model for user geolocation and lexical dialectology. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017), pages 207-216, Vancouver, Canada
[44] Yasuhide Miura, Motoki Taniguchi, Tomoki Taniguchi, and Tomoko Ohkuma. 2017. Unifying text, metadata, and user network representations with a neural network for geolocation prediction. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages 1260-1272, Vancouver, Canada
[45] Afshin Rahimi, Trevor Cohn, and Timothy Baldwin. 2015a. Twitter user geolocation using a unified text and network prediction model. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics — 7th International Joint Conference on Natural Language Processing (ACLIJCNLP 2015), pages 630-636, Beijing, China.
[46] Akshay S., Akash M. R., Sai Ananda Krishnan G., Comparative Analysis of Heat Maps over Voronoi Diagram in Eye Gaze Data Visualization // 2017 IEEE International Conference on Intelligent Computing and Control(I2C2)
[47] Leaflet // URL:https://leafletjs.com (дата обращения: 01.06.2020)
[48] Репозиторий GitHub URL:https://github.com/Marysosh/TwitterGeoHeatmap (дата обращения: 26.05.2021)