Введение 3
Обзор литературы 6
Глава 1. Разработка программного комплекса для определе¬ния геолокации пользователей в дискуссиях в в со¬циальных сетях 7
1.1. Проектирование архитектуры программного обеспечения 7
1.2. Алгоритм геолокации пользователей 7
1.3. Получение геолокации по имени пользователя 7
1.4. Обработка верно указанных геопозиций 8
1.5. Обработка геопозиций, содержащих грязные данные ... 8
1.6. Обработка данных, не содержащих полезной информации 13
1.7. Формат данных 14
1.8. Оценка результатов 14
1.9. Веб-сервис 15
Заключение 17
Список литературы
Актуальность
Сервисы социальных сетей в интернете, такие как микроблоги, предлагаемые такими платформами, как Twitter, продемонстрировали феноменальный рост своей пользовательской базы. Этот рост вызвал интерес к
использованию данных, предоставляемых этими платформами, для извлечения разного рода информации, такой как, например, географическое положение, от пользователей. Полученные данные можно использовать для
предоставления пользователям персонализированных услуг, таких как релевантные новости, реклама и прочий контент. Также знания о местоположении пользователей могут позволить исследователям анализировать мировые события с точки зрения того, как и какие слои населения они задевают. С более чем 200 миллионами учетных записей в Twitter в разных
географических точках короткие сообщения (твиты) образуют огромный
набор данных, который может быть проанализированы для извлечения такой географической информации.
Проблемы
Twitter позволяет своим пользователям самостоятельно указывать
свое географическое положение. Эта информация о местоположении вводится пользователем вручную или обновляется с помощью GPS (но активировано это лишь у небольшого процента пользователей [1]). Следовательно, данные о географическом местоположении для большинства пользователей могут отсутствовать или быть неверными. Есть несколько недостатков в использовании обновления местоположения вручную:
• основной и единственный инструмент для получения информации о
геолокации пользователей - официальный сервис Twitter API. К сожалению, доступ к данному сервису открыт исключительно на платной основе.
3• пользователи могут ввести неверные данные о географическом местоположении. Например, пользователь может ввести свое местоположение как “Марс, кратер Ковальский”. Также это может быть не
название реального географического местоположения “Криптон”;
• пользователи могут неоднозначно указать свое местоположение. Например, “космополит, но из Москвы”. Такую строку сложно обработать, так как в ней много лишней информации;
• у пользователей может быть не указано местоположение.
Следовательно, надежность таких данных для определения географического местоположения пользователя невысока. Чтобы преодолеть эту
проблему редко доступной информации о местоположении пользователей,
мы оцениваем географическое положение пользователя Twitter на уровне
страны, основываясь не только содержании указанного поля местоположения, но и на геолокации пользователей, с которыми взаимодействует
рассматриваемый.
Цель и задача работы
В Twitter пользователи могут публиковать микроблоги, известные
как твиты, которые могут читать другие пользователи. Наряду с этой
службой микроблогов Twitter также предоставляет службу социальной сети, в которой пользователь (подписчик) может следить за твитами другим
пользователем. Каждый край социальной сети формируется этими отношениями «подписки». Как подписчик, пользователь получает все твиты, отправленные подписчиком, и, в свою очередь, может отвечать на эти твиты
с помощью ответного твита. Этот ответ-твит - ключевой инструмент взаимодействия пользователей Twitter, который составляет основу разговора
между двумя разными пользователями. Согласно исследованию [2] ответные твиты и направленные твиты составляют около 25,4% всех сообщений
в Twitter. Это показывает, что функция ответа-твита широко используется
пользователями Twitter. Основная идея моей работы заключается в том,
что так как разговор между пользователями может быть посвящен темам
4(погода, спорт и т. д.) связанным с местоположением, предполагается, что
этот набор тем остается неизменным во время обсуждения. Тогда можно
предполагать, что геолокация участника дискуссии связана с геолокацией
остальных участников. Таким образом, составив граф того, с кем пользователь взаимодействует в Twitter, можно составить представление о его
местоположении.
Результаты
В данной работе рассматривалась задача детекции геолокации пользователей в социальной сети Twitter. В изучаемых данных были представлены графы дискуссий, посвященные различным нашумевшим мировым
событиям. Разработанный в результате исследования алгоритм способен
определить геолокацию для пользователей, которые указали данную информацию о себе, а также предсказать геолокацию для пользователей без
подобной информации.
В ходе работы были выполнены все стадии обработки рассматриваемых данных. Был реализован сбор информации о поле геолокации пользователей посредством скрапинга Twitter API. Также было произведено
распознование именованных сущностей из полученных через Twitter API
строк местоположений. Затем была реализована нормализация распознанных геолокаций при помощи Open Street Maps API. Последним шагом в
обработке данных было заполнение графа связей пользователей геолокациями в соответствии с определенными на предыдущих шагах местоположениях. Были собраны результаты работы алгоритма на разных датасетах, отражающие результативность алгоритма на каждом этапе обработки.
Также был реализован web-сервис, в функционал которого входит:
• загрузка данных об участниках дискуссии,
• обработка этих данных при помощи реализованного алгоритма,
• визуализация результатов обработки алгоритма.
Полученная система может быть применена для анализа вовлеченности пользователей из разных стран в обсуждения мировых событий.
Перспективы развития
Представленная работа имеет следующие потенциальные пути развития:
17• Обработка информации о лайках и ретвитах. Использование этой информации может позволить как расширить множество участников
дискуссии, так и увеличить точность предсказаний.
• Обработка информации о подписках пользователя. Данный подход
также может увеличить точность предсказываний.
• Использование семантических свойств самих сообщений в дискуссии.
• Использование гео-меток сообщений пользователей.
[1] Z. Cheng, J. Caverlee, and K. Lee, “You are where you tweet: A content-based approach to geo-locating twitter users,” in Proceedings of the 19th ACM International Conference on Information and Knowledge Management, CIKM ’10, (New York, NY, USA), p. 759-768, Association for Computing Machinery, 2010.
[2] S. Chandra, L. Khan, and F. B. Muhaya, “Estimating twitter user location using social interactions-a content based approach,” in 2011 IEEE Third International Conference on Privacy, Security, Risk and Trust and 2011 IEEE Third International Conference on Social Computing, pp. 838-843, 2011.
[3] J. Serra and A. Karatzoglou, “Getting deep recommenders fit: Bloom embeddings for sparse binary input/output networks,” in Proceedings of the Eleventh ACM Conference on Recommender Systems, RecSys ’17, (New York, NY, USA), p. 279-287, Association for Computing Machinery, 2017.
[4] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” 2015.
[5] J. Nothman, N. Ringland, W. Radford, T. Murphy, and J. R. Curran, “Learning multilingual named entity recognition from wikipedia,” Artificial Intelligence, vol. 194, pp. 151-175, 2013. Artificial Intelligence, Wikipedia and Semi-Structured Resources.
[6] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” 2013.
[7] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, “Enriching word vectors with subword information,” 2017.
[8] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Empirical Methods in Natural Language Processing (EMNLP), pp. 1532-1543, 2014.
[9] O. Wiki, “Research — openstreetmap wiki,,” 2021. [Online; accessed 20- May-2021].
[10] D. Camacho, Angel Panizo-LLedot, G. Bello-Orgaz, A. Gonzalez-Pardo, and E. Cambria, “The four dimensions of social network analysis: An overview of research methods, applications, and software tools,” Information Fusion, vol. 63, pp. 88-120, 2020.
[11] J. M. Chamberlain, F. Spezzano, J. J. Kettler, and B. Dit, “A network analysis of twitter interactions by members of the u.s. congress,” Trans. Soc. Comput., vol. 4, Feb. 2021.
[12] T. Tang and C. G. Chorus, “Learning opinions by observing actions: Simulation of opinion dynamics using an action-opinion inference model,” Journal of Artificial Societies and Social Simulation, vol. 22, no. 3, p. 2, 2019.
[13] T.-L. D. Chung, O. Johnson, A. Hall-Phillips, and K. Kim, “The effects of offline events on online connective actions: An examination of boycottnfl using social network analysis,” Computers in Human Behavior, vol. 115, p. 106623, 2021.
[14] L. Ren, B. Zhu, and Z. Xu, “Robust consumer preference analysis with a social network,” Information Sciences, vol. 566, pp. 379-400, 2021.
[15] X. Dai, S. Karimi, B. Hachey, and C. Paris, “An effective transition-based model for discontinuous ner,” 2020.