Тип работы:
Предмет:
Язык работы:


МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ НА РАЗЛИЧНЫХ ЦИФРОВЫХ УСТРОЙСТВАХ

Работа №45716

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы75
Год сдачи2018
Стоимость4830 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
272
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ЗАДАЧИ ИДЕНТИФИКАЦИИ
ПОЛЬЗОВАТЕЛЯ НА МОБИЛЬНЫХ УСТРОЙСТВАХ И КОМПЬЮТЕРАХ... 6
1.1. Постановка задачи 6
1.2. Обзор алгоритмов решения и используемых терминов 10
ГЛАВА 2. ПОСТРОЕНИЕ АЛГОРИТМА ИДЕНТИФИКАЦИИ
ПОЛЬЗОВАТЕЛЯ НА МОБИЛЬНЫХ УСТРОЙСТВАХ И КОМПЬЮТЕРАХ . 20
2.1. Разработка и реализация 20
2.2. Ход решения 22
ГЛАВА 3. РЕЗУЛЬТАТЫ РАБОТЫ ПОСТРОЕННОГО АЛГОРИТМА 31
3.1. Результаты этапа препроцессинга 31
3.2. Результаты обучения модели и подбора параметров 32
3.3. Результаты этапа постпроцессинга 36
3.4. Итоговые результаты 36
ЗАКЛЮЧЕНИЕ 39
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 41
ПРИЛОЖЕНИЯ


С развитием технологий число наших устройств для выхода в Интернет растет. Ежедневно мы пользуемся мобильными телефонами, планшетами, «гуглим» что-то на работе или смотрим видео с котиками дома. Если все устройства не объединены общим аккаунтом, то наша личность становится фрагментированной. Сервисы не могут предлагать наиболее подходящую рекламу или релевантные поисковые результаты. Персонализация блокируется невозможностью осознать, что несколько пользователей на разных устройствах - это один и тот же человек.
Возвращение целостности пользователю особенно важно в маркетинге. Для рекламы на многих устройствах даже существует специальный термин - «cross-device таргетинг» или «cross-device маркетинг». Это направление рекламы пользуется популярностью [25]. Так, в 2017 году Google добавил возможность идентификации пользователей между разными устройствами в Google Analytics [27], сотни крупных компаний в мире создают бизнес решения в данной области ([26], [30], [39]).
Почему же для маркетинга так важно связать устройства между собой? Все дело в том, что устройства разных типов получают разное количество информации. Одна из причин, почему мобильная реклама не пользуется большим спросом у маркетологов - отсутствие большого количества данных. В «большом» Интернете благодаря куки (cookies) мы знаем о пользователях практически все - какие сайты они посещали, что они искали, чем они интересуются. На телефонах и планшетах мы обычно знаем только какое у пользователя устройство и какой у него оператор связи.
Для решения задачи сопоставления мобильных устройств и компьютеров в 2015 году на международном научно -практическом конкурсе Kaggle [28] было организовано соревнование, в котором приняло участие 340 команд. Организатором выступила компания Drawbridge [26], один из лидеров индустрии. Анонимные данные из этого соревнования были использованы в магистерской диссертации для обучения моделей и оценки полученных результатов.
Цель магистерской диссертации: разработка и реализация алгоритма, умеющего находить и связывать мобильные устройства и персональные компьютеры (cookie), принадлежащие одному пользователю.
Для достижения поставленной цели в работе сформулированы и решены следующие задачи:
1. Проанализировать существующие подходы к решению задачи связывания компьютеров и мобильных устройств
2. Построить алгоритм на основе разных подходов. Алгоритм должен использовать методы машинного обучения для достижения максимальной точности предсказаний. Особое внимание уделить анализу данных и работе с ними, а также выбору модели для обучения.
3. Сравнить подходы и вынести заключение, какой подход лучше показал себя в задаче.
Научная новизна исследования:
1. Выделение основных подходов, применимых к задаче связывания компьютеров и мобильных устройств
2. Проведение первого сравнительного анализа различных подходов к задаче и выявление того, как подход меняет результаты работы алгоритма
3. Построение алгоритма, использующего малые по сравнению с предыдущими работами объемы обучающей выборки, но при этом показывающего высокую точность предсказаний
4. Эффективная реализация построенного алгоритма с быстрым процессом обучения и работы
Объем и структура работы: Магистерская диссертация состоит из введения, трёх глав, заключения, списка использованной литературы и приложения в виде листинга.
В первой главе дана строгая постановка задачи связывания компьютеров и мобильных устройств и описаны основные таблицы. Кроме того, даны определения основным терминам, используемым в работе, а также рассмотрены основные метрики задачи классификации и градиентный бустинг.
Во второй главе были проанализированы два основных подхода к задаче (как к задаче бинарной классификации и как к задаче ранжирования), описаны использованные инструменты и полученная архитектура. Также глава содержит детализированное описание этапов построения алгоритма.
Третья глава содержит анализ построенного алгоритма и результаты, которые он показал. Также в нее включено сравнение двух подходов и вывод об актуальности каждого из них.
Работа заканчивается заключением с кратким описанием достигнутых результатов.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В работе решалась задача связывания компьютеров и устройств, принадлежащих одному пользователю. Сопоставление предлагалось осуществить методами машинного обучения на основе данных о поведении объектов и используемых ими IP адресов.
В магистерской диссертации были рассмотрены два основных подхода к решению: как к задаче бинарной классификации или ранжирования. Для каждой трактовки была определена строгая постановка и выбраны методы решения. Основным алгоритмом обучения для каждого подхода стал градиентный бустинг над решающими деревьями с реализацией XGBoost, как наиболее эффективный на сегодняшний день.
Для решения проблемы была проведена обширная предварительная работа с данными. Она включала в себя создание обучающей выборки и генерацию свойств на основе данных, представленных в таблицах. При создании выборки для снижения размерности был добавлен целый ряд фильтров по свойствам IP адресов и cookie. В ходе работы было показано, что для успешного решения проблемы не требуется большого количества данных - достаточно подробного описания объектов и их поведения на статических IP адресах. Такая выборка дала хорошее покрытие всех кандидатов и при этом заняла немного места, что стало важным показателем для обучения. Благодаря тщательной фильтрации, размер итоговой выборки оказался в 5 раз меньше, чем самая небольшая из выборок других авторов.
Этап подбора параметров модели и постпроцессинг выявили, что, хотя два подхода показывают близкие результаты, они достигают их принципиально разными средствами: модель ранжирования уделяет большее внимание куки, чем устройству, бинарная классификация оказалась более сбалансирована. При этом обе модели одними из самых важных параметров выделили число IP адресов как cookie, так и устройства. Первый подход потребовал меньше времени на обучение, чем второй. Добавление бэггинга и постпроцессинг улучшили результаты обеих моделей.
Лучше всего себя показал алгоритм ранжирования с итоговой F0.5 мерой на тестовом множестве, равной 0.86941. За ним с небольшим отрывом следовала бинарная классификация с мерой 0.86834. Полученные значения лежат между результатами 4 и 5 места в списке лидеров на Kaggle.
Дальнейшими шагами для улучшения алгоритма может стать расширение списка генерируемых свойств, которые должны выбираться согласно особенностям подхода (бинарной классификации или ранжирования). Также можно попробовать объединять модели двух подходов на более ранних этапах (обучения, а не постпроцессинга).
По итогам работы можно с уверенностью сказать, что cross-device маркетинг близок, как никогда: современные алгоритмы позволяют с высокой точностью связывать устройства и компьютеры, принадлежащие одному человеку и для этого не нужно собирать больших объемов информации. Выбор подхода оказался не столь критичен, как могло показаться - для получения хороших результатов достаточно четко представлять суть подхода и аккуратно генерировать обучающую выборку согласно его сути.



1. Кашницкий Ю.С. История развития ансамблевых методов классификации в машинном обучении. НИУ ВШЭ, Москва, Россия, 2015.
2. Маккинни У. Python и анализ данных: пер. с англ. - ДМК Пресс, 2015. - 482 с.
3. Плас Дж.В. Python для сложных задач: наука о данных и машинное обучение: пер. с англ. - Питер, 2018. - 576 с.
4. Фонарев А.Ю. Обзор алгоритмов бустинга. МГУ, Москва, Россия, 2012.
5. Diaz-Morales, R. Cross-Device Tracking: Matching Devices and Cookies. In: 2015 IEEE International Conference on Data Mining Workshop (ICDMW), Atlantic City, 2015. - pp. 1699-1704.
6. Friedman J. Greedy Function Approximation: A Gradient Boosting Machine, In: Annals of Statistics, 2000. - pp. 1189-1232.
7. Friedman J. Stochastic Gradient Boosting. In: Computational Statistics and Data Analysis, 1999. - pp. 367-378.
8. Friedman J., Hastie T., Tibshirani R. Additive Logistic Regression: a Statistical View of Boosting. In: Annals of Statistics, 2000. - pp. 337-407.
9. Friedman J., Hastie T., Tibshirani R. Random Forests. In: The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Location: Springer, 2009. pp 587-604.
10. Hyafil L., Rivest R. L. Constructing optimal binary decision trees is NP-complete. In: Information processing letters, 1976. pp. 15-17.
11. Li Hang A Short Introduction to Learning to Rank. In: IEICE Transactions on Information and Systems, 2011.
12. Landry M., Sudalai Rajkumar S, Chong R. Multi-layer Classification: ICDM 2015 Drawbridge Cross-Device Connections Competition. In: 2015 IEEE International Conference on Data Mining Workshop (ICDMW), Atlantic City, 2015. pp. 1695-1698.
13. Kim M. S., Liu J., Wang X., Yang W. Connecting Devices to Cookies via Filtering, Feature Engineering, and Boosting. In: 2015 IEEE International Conference on Data Mining Workshop (ICDMW), Atlantic City, 2015. pp. 1690-1694.
14. Renov O., Anand T.R. Machine Learning Approach to Identify Users Across Their Digital Devices. In: 2015 IEEE International Conference on Data Mining Workshop (ICDMW), Atlantic City, 2015. pp. 1676-1680.
15. Kejela G., Rong C. Cross-Device Consumer. In: 2015 IEEE International Conference on Data Mining Workshop (ICDMW), Atlantic City, 2015. pp. 1687-1689.
16. Schapire R.E. Explaining AdaBoost. In: Empirical Inference, 2013.
17. Walthers J. Learning to Rank for Cross-Device Identification. In: 2015 IEEE International Conference on Data Mining Workshop (ICDMW), Atlantic City,
2015. pp. 1710-1712.
18. Баженов Д. Оценка классификатора (точность, полнота, F-мера)
[Электронный ресурс ]. - Режим доступа:
http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html.
[Дата обращения: 05.04.2018]
19. Воронцов К.В. Машинное обучение (курс лекций) [Электронный ресурс]. -
Режим доступа: https://yandexdataschool.ru/edu-process/courses/machine-
learning [Дата обращения: 07.04.2017]
20. Воронцов К.В. Методы обучения ранжированию [Электронный ресурс ]. - Режим доступа:http://www.machinelearning.ru/wiki/images/8/89/Voron-ML-Ranking-slides.pdf [Дата обращения: 11.05.2017]
21. Градиентный спуск [Электронный ресурс ] - Режим доступа:
https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B9_%D1%81%D0%BF%D1%83%D1%81%D0%BA [Дата обращения: 04.04.2018]
22. Дьяконов А. ГРАДИЕНТНЫЙ БУСТИНГ [Электронный ресурс]. - Режим доступа:
https://alexanderdyakonov. files. wordpres s .com/2017/06/book_boosting_pdf. pdf. [Дата обращения: 15.11.2017]
23. Классификация MachineLearning.ru[Электронный ресурс]. - Режим доступа: http ://www. machinelearning. ru/wiki/index. php ?title=%D0%9A%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F [Дата обращения: 19.01.2018]
24. Brownlee J. Feature Importance and Feature Selection With XGBoost in Python
[Электронный ресурс]. - Режим доступа:
https://machinelearningmastery.com/feature-importance-and-feature-selection-with-xgboost-in-python/. [Дата обращения: 17.04.2018]
25. Criteo: в 2017 году кросс-девайс останется главным трендом российского
ритейла [Электронный ресурс ]. - Режим доступа:
http ://www. s o stav. ru/public ation/criteo -v- 2017-go du-kro s s-devajs-o stanetsya-glavnym-trendom-rossijskogo-ritejla-26109.html. [Дата обращения: 05.05.2018]
26. Drawbridge [Электронный ресурс ]. - Режим доступа:https://drawbridge.com/.[Дата обращения: 04.01.2018]
27. Google Analytics remarketing lists go cross-device May 15 [Электронный
ресурс]. - Режим доступа: https://marketingland.com/google-analytics-
remarketing-lists-go-cross-device-may-15-211248. [Дата обращения: 17.05.2018]
28.ICDM 2015: Drawbridge Cross-Device Connections [Электронный ресурс]. - Режим доступа:https://www.kaggle.com/c/icdm-2015-drawbridge-cross-device-connections#description.[Дата обращения: 9.10.2016]
29. Jin Yi Tree Boosting With XGBoost [Электронный ресурс ]. - Режим доступа:
https://medium.com/syncedreview/tree-boosting-with-xgboost-why-does-xgboost-win-every-machine-learning-competition-ca8034c0b283. [Дата обращения:
12.05.2018]
30. Lotame [Электронный ресурс]. - Режим доступа: https://www.lotame.com/.
[Дата обращения: 27.04.2018]
31. Mail.Ru Group Feature Engineering, о чём молчат online-курсы [Электронный
ресурс]. - Режим доступа: https://habr.com/company/mailru/blog/346942/.
[Дата обращения: 15.10.2018]
32. NumPy [Электронный ресурс]. - Режим доступа: http://www.numpy.org/.
[Дата обращения: 16.10.2018]
33.Open Data Science Метрики в задачах машинного обучения [Электронный ресурс]. - Режим доступа:https://habr.com/company/ods/blog/328372/.[Дата обращения: 01.11.2018]
34.Open Data Science Открытый курс машинного обучения. Тема 10. Градиентный бустинг [Электронный ресурс]. - Режим доступа: https://habr.com/company/ods/blog/327250/.[Дата обращения: 01.11.2018]
35.Open Data Science Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес [Электронный ресурс]. - Режим доступа:
https://habr.com/company/ods/blog/324402/.[Дата обращения: 05.11.2018]
36.Open Data Science Открытый курс машинного обучения. Тема 6. Построение и отбор признаков [Электронный ресурс]. -- Режим доступа: https://habr.com/company/ods/blog/325422/.[Дата обращения: 04.01.2018]
37. Python [Электронный ресурс]. - Режим доступа: https://www.python.org/.
[Дата обращения: Октябрь 2018]
38. Scikit-learn [Электронный ресурс]. - Режим доступа: http://scikit-
learn.org/stable/. [Дата обращения: 28.01.2018]
39. Tapad [Электронный ресурс]. - Режим доступа:http://www.tapad.com/.[Дата обращения: 18.05.2018]
40. XGBoost official repository [Электронный ресурс]. - Режим доступа:
https://github.com/dmlc/xgboost [Дата обращения: 18.01.2018]


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ