Введение 3
Постановка задачи и связанные основные понятия 4
Глава 1. Моделирование аудитории на уровне когорт 6
1.1. Регрессионная модель, основанная на удержании пользователей 6
1.2. Временной ряд поисковости пользователей 7
1.3. Применение 7
Глава 2. Моделирование аудитории на уровне пользователей 8
2.1. Классический параметрический подход 8
2.1.1 Формат данных 10
2.2. Параметрическая модель поисков в приложении 11
2.2.1 Индивидуальный уровень 11
2.2.2 Гетерогенность пользователей 12
2.2.3 Сравнение моделей 13
2.2.4 Итоговая модель 14
2.3. Параметрическая модель активности в приложении 15
2.3.1 Модификации BG/BB 15
2.3.2 Применение 16
Выводы 17
Заключение 18
Список литературы 19
Приложение 1: GitHub 20
Приложение 2 : Вычисления 20
Поисковыми приложениями Яндекса ежедневно пользуются миллионы людей по всему миру. Понимание поведения пользователей, их потребностей и предпочтений позволяет оптимизировать функциональность приложения, улучшить качество поиска, повысить вовлеченность и удержать пользователей. В условиях, когда пользователи не заключают формальных контрактов (таких как подписка) с поисковыми сервисами, прогнозирование их поведения становится особенно сложным. Без формальных соглашений пользователи могут менять приложения или сервисы без каких-либо последствий, что делает их поведение очень изменчивым. Понимание и предсказание их действий становится сложнее, так как нет привязки к срокам подписки или другим формальным критериям.
Кроме того, важным фактором является возможность анализа оттока пользователей - определение вероятных причин их ухода и разработка стратегий их вовлечения и удержания. Для этой цели подходят регрессионные модели основанные на удержании пользвателей, а также вероятностные параметрические модели такие как BG/BB (Beta-Geometric/Beta-Binomial) и Gamma-Gamma, которые помогают определить, какие факторы больше всего влияют на лояльность и удовлетворенность пользователей. Эти модели обеспечивают необходимую гранулярность и глубину анализа, позволяя не только следить за текущим состоянием взаимодействий, но и предсказывать будущее поведение клиентов на основе их прошлых действий.
Настоящая работа направлена на разработку и апробацию статистического подхода к анализу поведения пользователей поисковых систем, с особым вниманием к оттоку пользователей и их вовлеченности. Это позволит не только улучшить пользовательский опыт, но и усилить конкурентные преимущества поисковой системы на рынке.
В результате работы была успешно реализованная регрессионная модель активности пользователей в наших приложениях, которая на данный момент используется в продакшн- процессах. А также была исследована применимость классических вероятностных параметрический моделей, были реализованы некоторые модификации этих моделей (ссылка на github в приложениях), которые расширяют класс решений реализованных в открытый библиотеках (таких как lifetimes1 и BTYD2).
lifetimes - https://lifetimes.readthedocs.io/en/latest/index.html
2BTYD - https://btyd.readthedocs.io/en/latest/index.html
Постановка задачи и связанные основные понятия
Анализ базы пользователей поисковых приложений Яндекса включается в себя задачи предсказания следующих метрик:
• DAU (Daily Active Users) 1:
- число уникальных пользователей приложений за сутки. Предсказание DAU позволяет понять, сколько привлеченных пользователей будет активно пользоваться сервисом в будущем. Это помогает планировать маркетинговые кампании, учитывая ожидаемое количество активных пользователей, а также мониторить тренды и изменения в поведении пользователей.
Рис. 1: Рост DAU новой аудитории
• Retention (Удержание) 2 :
- доля пользователей вернувшихся в приложение ровно на i-ый день после установки. Предсказание вероятности возвращения пользователей приложения вдоль различных когорт позволяет оценивать эффективность различных маркетинговых кампаний с точки зрения удержания привлеченных пользователей. А оценки вероятностей вернуться в приложение для индивидуальных пользователей позволяют организовать таргетинг.
Рис. 2: Пример Retention-кривой
• Поиски 3:
- число поисков, совершенное пользователями на каждый день. Это целевая метрика поисковых приложений, которую нужно уметь растить, а для этого понимать как её предсказывать.
Рис. 3: Рост Поисков новой аудитории
• LTV (Lifetime Value):
- «ценность» пользователя за период его жизни. Предсказание LTV позволяет оценить общую «ценность» пользователя для приложения (суммарное число поисков, которое принесет пользователь за период своей жизни), принимать решения об организации рекламных бюджетов, определять ключевые сегменты пользователей и разрабатывать специальные предложения для них, оценивать эффективность маркетинговых кампаний с точки зрения привлечения и удержания самых ценных клиентов.
Проведенное исследование позволило разработать набор инструментов для анализа пользовательской базы поисковых приложений Яндекса, основанных на различных статистических моделях. Полученные результаты могут быть использованы для оптимизации маркетинговых кампаний, повышения вовлеченности пользователей и улучшения качества поиска.
В дальнейшем следует продолжить исследования по следующим направлениям:
• Разработка более подходящих априорных распределений, объясняющих гетерогенность в активности пользователей
• Добавление большего числа факторов в моделирование активности (таких как сезонность и дополнительные признаки пользователей)
• Добавление нестационарности в параметры поведения пользователей
Результаты данного исследования послужили основой для дальнейших исследований в области анализа пользовательского поведения в поисковых приложениях.
[1] Peter S. Fader, Bruce G. S. Hardie, Jen Shang «Customer-Base Analysis in a Discrete-Time Noncontractual Setting». 2010
[2] Peter S. Fader, Bruce G. S. Hardie, Ka Lok Lee «RFM and CLV: Using Iso-value Curves for Customer Base Analysis». 2004
[3] Peter S. Fader, Bruce G. S. Hardie «The Gamma-Gamma Model of Monetary Value». 2013
[4] Peter S. Fader, Bruce G. S. Hardie «Probability Models for Customer-Base Analysis». 2014
[5] PREDICTING DAU FOR MOBILE GAME https://blogs.geniteam.com/predicting-dau/