Введение 4
Глава 1. Постановка задачи 5
Глава 2. Анализ социальной сети Твиттер 6
2.1. Контент в Твиттере 6
2.1.1 Социальный граф пользователей 6
2.1.2 Контекст твитов 7
Глава 3. Обзор существующих решений 8
3.1. Методы, основанные на содержании твитов 8
3.1.1 Методы, основанные на диалектах 8
3.1.1.1 Выявление локальных слов 9
3.1.1.2 Сопоставление локальных слов местоположениям 10
3.1.2 Методы, основанные на геопозициях 11
3.2. Методы, основанные на социальном графе пользователей 12
3.2.1 Методы, основанные на дружбе 13
3.2.2 Методы, основанные на социальной близости 13
3.3. Методы, основанные на контексте твитов 15
Глава 4. Используемые данные 17
4.1. Данные, используемые для обучения моделей 17
4.2. Сбор данных о подписчиках бизнес-аккаунта 18
Глава 5. Выбор и обучение моделей 20
5.1. Модель GCN 20
5.2. Модель DCCA 22
5.3. Обучение моделей 23
5.3.1 Предварительная обработка данных 23
5.3.2 Переход к задаче классификации 23
5.3.3 Описание параметров обучаемых моделей 24
5.3.4 Используемые метрики 25
5.3.5 Результаты обучения моделей 26
Глава 6. Визуализация полученных геопозиций 28
Выводы 30
Заключение 31
Список литературы
После нескольких десятилетий онлайн-покупок, процент потребителей, предпочитающих делать покупки в обычных розничных магазинах, составляет 85,7% [1]. Многие люди предпочитают покупать одежду и обувь в офлайн магазинах, где предоставляется возможность примерить различные модели и приобрести товар без ожидания его доставки. Именно поэтому небольшие бренды, изначально реализующие товары посредством онлайн-продаж, открывают офлайн магазины. При открытии офлайн магазина обычно проводятся маркетинговые исследования и анализ рынка. В данном случае может быть полезным изучить аудиторию аккаунтов бренда в социальных сетях.
Социальные сети предлагают много преимуществ для владельцев бизнеса. Располагая более чем 300 млн активных пользователей в месяц, [2] Твиттер является эффективным инструментом для поиска потенциальных клиентов и взаимодействия с ними. В последнем исследовании “Hootsuite Social Trends 2021 Survey”, проводимом в конце 2020 года, 33% опрошенных выделили Твиттер как наиболее эффективную платформу для достижения бизнес-целей [3].
Информация о месте проживания заинтересованных в продукте или услуге людей помогает грамотно скорректировать бизнес-стратегию и получить больше прибыли. Основываясь на геопозиции, определенной по личным страницам пользователей, можно исследовать местоположение группы клиентов. Однако, из-за того, что при создании аккаунта указание геопозиции не является обязательным полем для заполнения, поле с указанной пользователем геопозицией чаще всего остается незаполненным или имеет недостоверную информацию, что было подтверждено Hecht и др. в [4]. Поэтому, внимание многих исследователей направлено на поиск решений для определения местоположений пользователей на основе их аккаунтов в социальной сети. Также стоит отметить, что количество подписчиков аккаунта может быть очень большим, что делает невозможным получение информации на основе всех подписанных пользователей без использования программных реализаций алгоритмов анализа данных.
В рамках данной работы был проведен обзор существующих подходов для определения геопозиций пользователей в социальной сети Твиттер. Были рассмотрены различные методы, работающие с разнотипными данными пользователей.
Далее были отобраны доступные для обучения размеченные данные и построена система по сбору информации о подписчиках бизнес-аккаунта. Основываясь на особенностях полученных данных, были выбраны алгоритмы, наиболее подходящие для решения конкретной задачи. Над ними был проведен ряд экспериментов, который позволил выявить метод, который лучше всего справляется с поставленной задачей. Применяя данный метод к реальным неразмеченным данным о пользователях, можно получать координаты их местоположения с достаточной точностью.
Полученные геопозиции подписчиков бизнес-аккаунта были представ-лены в виде тепловой карты, что позволило наглядно изучить их расположение в рассматриваемой области. Реализованная таким образом визуализация помогает анализировать местоположения потенциальных клиентов и определять места их максимального сосредоточения.
Таким образом, достигнутые в рамках данной работы результаты позволяют считать поставленную задачу выполненной. Рассматриваемые в работе алгоритмы могут быть успешно применены для определения местоположения пользователей социальной сети Твиттер. Исходный код про-граммы, содержащий в себе все этапы работы, представлен в открытом репозитории GitHub [48].