Тема: МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ НА РАЗЛИЧНЫХ ЦИФРОВЫХ УСТРОЙСТВАХ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ЗАДАЧИ ИДЕНТИФИКАЦИИ
ПОЛЬЗОВАТЕЛЯ НА МОБИЛЬНЫХ УСТРОЙСТВАХ И КОМПЬЮТЕРАХ... 6
1.1. Постановка задачи 6
1.2. Обзор алгоритмов решения и используемых терминов 10
ГЛАВА 2. ПОСТРОЕНИЕ АЛГОРИТМА ИДЕНТИФИКАЦИИ
ПОЛЬЗОВАТЕЛЯ НА МОБИЛЬНЫХ УСТРОЙСТВАХ И КОМПЬЮТЕРАХ . 20
2.1. Разработка и реализация 20
2.2. Ход решения 22
ГЛАВА 3. РЕЗУЛЬТАТЫ РАБОТЫ ПОСТРОЕННОГО АЛГОРИТМА 31
3.1. Результаты этапа препроцессинга 31
3.2. Результаты обучения модели и подбора параметров 32
3.3. Результаты этапа постпроцессинга 36
3.4. Итоговые результаты 36
ЗАКЛЮЧЕНИЕ 39
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 41
ПРИЛОЖЕНИЯ
📖 Введение
Возвращение целостности пользователю особенно важно в маркетинге. Для рекламы на многих устройствах даже существует специальный термин - «cross-device таргетинг» или «cross-device маркетинг». Это направление рекламы пользуется популярностью [25]. Так, в 2017 году Google добавил возможность идентификации пользователей между разными устройствами в Google Analytics [27], сотни крупных компаний в мире создают бизнес решения в данной области ([26], [30], [39]).
Почему же для маркетинга так важно связать устройства между собой? Все дело в том, что устройства разных типов получают разное количество информации. Одна из причин, почему мобильная реклама не пользуется большим спросом у маркетологов - отсутствие большого количества данных. В «большом» Интернете благодаря куки (cookies) мы знаем о пользователях практически все - какие сайты они посещали, что они искали, чем они интересуются. На телефонах и планшетах мы обычно знаем только какое у пользователя устройство и какой у него оператор связи.
Для решения задачи сопоставления мобильных устройств и компьютеров в 2015 году на международном научно -практическом конкурсе Kaggle [28] было организовано соревнование, в котором приняло участие 340 команд. Организатором выступила компания Drawbridge [26], один из лидеров индустрии. Анонимные данные из этого соревнования были использованы в магистерской диссертации для обучения моделей и оценки полученных результатов.
Цель магистерской диссертации: разработка и реализация алгоритма, умеющего находить и связывать мобильные устройства и персональные компьютеры (cookie), принадлежащие одному пользователю.
Для достижения поставленной цели в работе сформулированы и решены следующие задачи:
1. Проанализировать существующие подходы к решению задачи связывания компьютеров и мобильных устройств
2. Построить алгоритм на основе разных подходов. Алгоритм должен использовать методы машинного обучения для достижения максимальной точности предсказаний. Особое внимание уделить анализу данных и работе с ними, а также выбору модели для обучения.
3. Сравнить подходы и вынести заключение, какой подход лучше показал себя в задаче.
Научная новизна исследования:
1. Выделение основных подходов, применимых к задаче связывания компьютеров и мобильных устройств
2. Проведение первого сравнительного анализа различных подходов к задаче и выявление того, как подход меняет результаты работы алгоритма
3. Построение алгоритма, использующего малые по сравнению с предыдущими работами объемы обучающей выборки, но при этом показывающего высокую точность предсказаний
4. Эффективная реализация построенного алгоритма с быстрым процессом обучения и работы
Объем и структура работы: Магистерская диссертация состоит из введения, трёх глав, заключения, списка использованной литературы и приложения в виде листинга.
В первой главе дана строгая постановка задачи связывания компьютеров и мобильных устройств и описаны основные таблицы. Кроме того, даны определения основным терминам, используемым в работе, а также рассмотрены основные метрики задачи классификации и градиентный бустинг.
Во второй главе были проанализированы два основных подхода к задаче (как к задаче бинарной классификации и как к задаче ранжирования), описаны использованные инструменты и полученная архитектура. Также глава содержит детализированное описание этапов построения алгоритма.
Третья глава содержит анализ построенного алгоритма и результаты, которые он показал. Также в нее включено сравнение двух подходов и вывод об актуальности каждого из них.
Работа заканчивается заключением с кратким описанием достигнутых результатов.
✅ Заключение
В магистерской диссертации были рассмотрены два основных подхода к решению: как к задаче бинарной классификации или ранжирования. Для каждой трактовки была определена строгая постановка и выбраны методы решения. Основным алгоритмом обучения для каждого подхода стал градиентный бустинг над решающими деревьями с реализацией XGBoost, как наиболее эффективный на сегодняшний день.
Для решения проблемы была проведена обширная предварительная работа с данными. Она включала в себя создание обучающей выборки и генерацию свойств на основе данных, представленных в таблицах. При создании выборки для снижения размерности был добавлен целый ряд фильтров по свойствам IP адресов и cookie. В ходе работы было показано, что для успешного решения проблемы не требуется большого количества данных - достаточно подробного описания объектов и их поведения на статических IP адресах. Такая выборка дала хорошее покрытие всех кандидатов и при этом заняла немного места, что стало важным показателем для обучения. Благодаря тщательной фильтрации, размер итоговой выборки оказался в 5 раз меньше, чем самая небольшая из выборок других авторов.
Этап подбора параметров модели и постпроцессинг выявили, что, хотя два подхода показывают близкие результаты, они достигают их принципиально разными средствами: модель ранжирования уделяет большее внимание куки, чем устройству, бинарная классификация оказалась более сбалансирована. При этом обе модели одними из самых важных параметров выделили число IP адресов как cookie, так и устройства. Первый подход потребовал меньше времени на обучение, чем второй. Добавление бэггинга и постпроцессинг улучшили результаты обеих моделей.
Лучше всего себя показал алгоритм ранжирования с итоговой F0.5 мерой на тестовом множестве, равной 0.86941. За ним с небольшим отрывом следовала бинарная классификация с мерой 0.86834. Полученные значения лежат между результатами 4 и 5 места в списке лидеров на Kaggle.
Дальнейшими шагами для улучшения алгоритма может стать расширение списка генерируемых свойств, которые должны выбираться согласно особенностям подхода (бинарной классификации или ранжирования). Также можно попробовать объединять модели двух подходов на более ранних этапах (обучения, а не постпроцессинга).
По итогам работы можно с уверенностью сказать, что cross-device маркетинг близок, как никогда: современные алгоритмы позволяют с высокой точностью связывать устройства и компьютеры, принадлежащие одному человеку и для этого не нужно собирать больших объемов информации. Выбор подхода оказался не столь критичен, как могло показаться - для получения хороших результатов достаточно четко представлять суть подхода и аккуратно генерировать обучающую выборку согласно его сути.



