Задание 2
Реферат 3
Введение 7
1 Аналитический обзор методов использования персональных данных в
коммерческих целях 9
1.1 Понятие персональных данных 9
1.2 Монетизация 12
1.3 Проблемы отрасли 14
1.4 Существующие решения 16
2 Разработка модели монетизации персональных данных и описание
методов ее реализации 18
2.1 Описание решения 18
2.2 Сбор данных 27
2.2.1 Условия и принципы сбора данных 27
2.2.2 Источники данных 28
2.2.3 Фильтрация источников 32
2.3 Формирования типа личности 34
2.3.1 Типология Юнга 35
2.3.2 Типология Майерс - Бриггс 36
2.3.3 «Большая пятерка» личностных факторов 37
2.3.4 Модель ПЕХЛСО 42
2.3.5 Другие многофакторные модели 43
2.4 Анализ данных 43
2.4.1 Подходы к обработке данных 43
2.4.2 Алгоритмы построения моделей 44
2.4.3 Методы построения многоклассовых классификаторов 47
2.5 Использование базы профилей 50
3 Разработка и применение модели определения типа личности
пользователя 52
3.1 Подготовка 52
3.2 Формирование эталонных результатов 53
3.3 Разработка и оценка модели 55
3.4 Пример применения полученных профилей 62
Заключение 67
Список использованных источников 70
Развитие современного общества уже невозможно представить без интернета. Многолетний стабильный рост количества пользователей, всемирной сети, увеличение времени нахождения в сети, увеличение покрытия доступа в интернет по всему миру, увеличение количества используемых носимых устройств и так далее. Такой рост вовлеченности людей во взаимодействие с глобальной сетью способствует тому, что передаваемая информация и действия пользователей в сети все более точно отражают их индивидуальные черты и особенности.
Каждая сфера нашей жизни человека в развитом государстве в настоящее время сопряжена с доступом в интернет и передачей большого количества информации о себе. Социальные сети, поисковые запросы, интеллектуальные помощники и многое другое. Все эти продукты упрощают нашу жизнь, делают ее приятнее и без них она уже не считается полноценной для современного общества. Персонализация, индивидуальный подход - негласный девиз успешных продуктов, создаваемых последние годы [26].
Для того, чтобы сделать продукт или услугу действительно качественной и удобной для пользователей, необходимо иметь достаточное количество информации о них. Чем больше ты знаешь, казалось бы, тем точнее можешь сформировать свое предложение. Но недостаточно обладать большими объемами информации, необходимо уметь их обрабатывать, получать ценную информацию и правильно ее использовать. Отсюда очевидно, почему в настоящее время обработка персональных данных играет все большую и большую роль в процессе развития отраслей и формирования бизнес-моделей.
Как и где собирать информацию о пользователях, как обрабатывать, интерпретировать полученные результаты и сформировать представление о пользователе, чтобы затем эффективно использовать полученные данные с целью их монетизации. На решение этих вопросов направлены исследования крупнейших корпораций в область анализа и сбора пользовательских данных.
Предпосылкой для проведения настоящего исследования стали опубликованные результаты изучения взаимосвязи отдельных личностных черт с активностью пользователя в сети интернет [27, 28], но в русскоязычном сегменте не было опубликовано проведенных исследований о возможности обратного использования данных - построения полного психологического портрета личности человека на основе автоматизированного сбора информации о его активности в сети.
Использование результатов анализа персональных данных в коммерческих целях нашло широкое применение в современной жизни, редкий доклад о современных технологиях или презентация различных потребительских товаров не касаются данной тематики.
В работе был подробно рассмотрен процесс монетизации персональных данных, отдельные этапы этого процесса, проблемы и методы, применяемые для их решения, включая основной объект работы - описание модели сбора, обработки и реализации результатов анализа персональных данных на основе типологии личности и изменяемых во времени характеристик пользователя.
Представленная в практической части работы реализация модели определения типа личности на основе только открытых данных из общедоступного источника, в частности, социальной сети вконтакте, демонстрирует наличие устойчивой корреляции между активностью пользователя в сети и его описанием, полученным с помощью традиционной методики.
Настоящая подход может быть использован совместно с другими методиками определения личности, источниками информации и выделением других параметров, описывающих активность человека, что может привести к получению более точной модели.
Таким образом, при дальнейшей разработке темы исследования, данный подход может использоваться во множестве смежных областей и помочь в решении целого ряда проблем.
1) Нормализация результатов обратной связи от пользователей. Известно, что представление об оценочной шкале у разных людей отличается: одни отмечают понравившиеся и непонравившиеся объекты используя максимально и минимально доступный значения диапазона оценок, другие же используют лишь его часть, занижая максимальные и завышая минимальные оценки, третьи оценивают только понравившиеся, или наоборот, непонравившиеся объекты и так далее. Это вносит неточности в системы прогнозирования обратной связи и снижает эффективность рекомендательных систем для таких людей.
2) При реализации поисковой составляющий и интеграции достаточного числа источников подход позволяет решить проблему «холодного старта» рекомендательных систем.
3) Подход с учетом изменяемых во времени интересов и прочих параметров пользователя позволяет даже по истечение значительного количества времени сохранять представление о пользователе актуальным, повышая уровень лояльности к построенным на основе такой информации сервисам и предоставляемым услугам.
4) Подход к фильтрации источников позволит решить проблему, сравнительно недавно возникшую на рынке интернет рекламы с появлением продуктов, предназначенных для подрыва рекламных компаний, аналогичных AdNauseam.
5) Описанный подход к анализу аномалий и зашумленных аккаунтов, а
также приведенные примеры обработки данных демонстрируют
возможность применения их для улучшения качества оказания услуг социальными сетями, форумами и многими другими сервисами, где используются связанные данные [2].
6) Анализ временного изменения интересов и поведения пользователя может быть использован с целью предотвращения нарушения и преступлений, путем выявления сигнатур, свойственных для опасного изменения.
7) Поддержка принятия решения при диагностике в медицинских целях с учетом увеличения точности определения типа и, аналогично предыдущему пункту, анализу сигнатур поведения, свойственных проявлению различных недугов.
8) Применение для оценки кредитоспособности и надежности заемщика [20].
9) А также во многих других областях, связанных с анализом поведения, психологического портрета и так далее.
1. Cuperman R., Ickes W. Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables» // Journal of Personality and Social Psychology.
2009. №97. С.667-684.
2. Holland B.R. Enabling Open Source Intelligence (OSINT) in private social networks: магистерская диссертация. - Эймс: Iowa State University, 2012, 20с.
3. Lee K., Ashton M.C. The HEXACO personality factors in the indigenous personality lexicons of English and 11 other languages // Journal of personality. 2008. №5. С.1001-1054
4. Mohamed Aly Survey on multiclass classification methods // Technical Report, Caltech. 2005.
5. Neha Mehra, Surendra Gupta Survey on multiclass classification methods // International Journal of Computer Science and Information Technologies. 2013. №4 (4). С.572-576.
6. Nello Cristianini, John Shawe-Taylor An introduction to support vector machines and other kernel-based learning methods Cambridge: Cambridge University Press, 2000. 204с.
7. O'Connor B. A quantitative review of the comprehensiveness of the five-factor model in relation to popular personality inventories // Assessment. 2002. №2 (9): С.188-203.
8. Shmelyov A.G., Pokhil’ko V.I. A taxonomy-oriented study of Russian personality-trait names // European Journal of Personality. 1993. №7. С.1-17.
9. The New York Times [Электронный ресурс] // How Companies Learn Your
Secrets / URL: http: //www.nytimes.com/2012/02/19/magazine/shopping-
habits.html (Дата обращения 12.04.2017).
10. Анастази А., Урбина С. Психологическое тестирование. СПБ.: Питер, 2009. 688с.
11. Беркинблит М.Б. Нейронные сети. М.: МИРОС и ВЗМШ РАО, 1993. 96 с.
12. Букалов А.В. соционика, типологии юнга и майерс-бриггс: сходства и различия // Соционика, ментология и психология личности. 1998. №4.
13. Википедия - свободная энциклопедия [Электронный ресурс] //
пересмотренный личностный опросник NEO / URL:
https: //ru.wikipedia. org/wiki/NEO PI-R (Дата обращения 23.04.2017).
14. Вьюгин В. Математические основы машинного обучения и прогнозирования. М.: МЦМНО, 2014. 304с.
15. Горбань А.Н. Обучение нейронных сетей. М.: СССР-США СП «Параграф», 1990. 160с...