В настоящее время актуально развитие таргетинга - механизма, позволяющего выделить из имеющейся аудитории только ту часть, которая удовлетворяет заданным критериям. Данный подход активно применяется в рекламе, поскольку формирует максимально релевантную аудиторию исходя из характеристик каждого пользователя. Такими характеристиками могут быть возраст, пол, семейное положение, образование. Данные об этих параметрах позволят предложить пользователю информацию, которая действительно представляет для него интерес.
Особенное развитие получает направление геотаргетинга. Данный вид таргетинга выдает пользователю контент, соответствующий его географическому положению. Такая географическая привязка дает возможность рекламодателю сообщить о локальных мероприятиях, а пользователю - получить услуги максимально соответствующие его географическому положению. Информация, получаемая пользователем, содержит актуальные данные какой-либо компании и расположение ближайшего к нему офиса, а также товары и услуги близкие к месторасположению пользователя.
На данный момент инструменты, реализующие механизм геотаргетинга базируются на анализе IP-адреса пользователя и окружающих его wifi-сетей, а также на основе данных, которые пользователь сам внес в систему. Такие решения не позволяют получить точное месторасположение пользователя, либо анализируют единичные посещения. Следовательно, контент, выдаваемый системой пользователю, не является релевантным.
В случае, когда система имеет информацию о тех областях, где пользователь пребывает регулярно, например, местожительство, дом родителей, место работы и т.д., мы можем сформировать список инфраструктур, наиболее интересных пользователю.
Подобная информация имеет широкое применение не только в геотаргетинговой рекламе. Статистический анализ таких данных позволит правильно организовывать среду проживания граждан, например, при проектировании
транспортной системы, организации пунктов выдачи товаров, определении наилучших месторасположений магазинов и офисов.
Задача формирования областей регулярного пребывания пользователя может быть решена с использованием методов кластеризации, где входными данными являются координаты пользователя, собранные в течение определенного временного промежутка. Каждый кластер представляет собой область периодического пребывания пользователя.
Таким образом, целью настоящей дипломной работы является разработка программного инструмента, решающего проблему поиска максимально релевантного списка инфраструктур для пользователя на основе его географических координат. Данный список будет формироваться исходя из информации о местоположениях пользователя.
Для достижения поставленной цели были решены следующие задачи:
• Анализ существующих методов кластеризации.
• Выбор оптимального метода для решения задачи определения областей постоянного пребывания пользователя.
• Применение выбранного метода для определения его эффективности на большом объеме данных.
• Анализ результатов кластеризации и их визуализация.
• Написание программного модуля, входными данными которого является массив географических координат пользователя, а выходными - список наиболее релевантных инфраструктур.
В ходе выполнения настоящей дипломной работы было разработано клиент-серверное приложение geoclient для поиска релевантных инфраструктур пользователя на основе множества его географических координат.
Наиболее важными результатами проведенной работы является реализация клиент-серверного приложения-сайта, а также реализация скриптов кластеризации данных.
Данное приложение
• Имеет удобный пользовательский интерфейс;
• имеет возможность развертывания на сторонних серверах;
• имеет масштабируемую архитектуру;
• предлагает программный интерфейс (API) для поддержки взаимодействия с другими системами.
Таким образом, все поставленные перед дипломной работой задачи полностью выполнены.
Предполагается дальнейшее развитие данной системы, а именно решение следующих задач:
1. Реализация и тестирование других алгоритмов кластеризации.
2. Реализация API для мобильных приложений.
3. Повышение эффективности работы приложения за счет кэширования данных кластеризации и сохранения побочных результатов работы программы.
1. Макарова Е. А. Особенности контекстной рекламы в интернете //Актуальные вопросы экономических наук. - 2012. - №. 25-1.
2. Вологина О. В. Антикризисные решения для b-2-c: сегментирование и геотаргетинг //Интернет-маркетинг. - 2015. - Т. 4. - С. 250-260.
3. Тиндова М. Г. Предварительная кластеризация многомерных объектов в интеллектуальном анализе данных //Вестник Саратовского государственного социально-экономического университета. - 2008. - №. 04.
4. An introduction to kernel density estimation [Электронный ресурс] - http://www.mvstat.net/tduong/research/seminars/seminar-2001-05.pdf
5. Parzen-Window Density Estimation, [Электронный ресурс] - https://www.cs.utah.edu/~suyash/Dissertation html/node11.html
6. Guidoum A. C. Kernel estimator and bandwidth selection for density and its derivatives. - 2013.
7. Comaniciu D., Meer P. Mean shift: A robust approach toward feature space analysis //IEEE Transactions on pattern analysis and machine intelligence. - 2002. - Т. 24. - №. 5. - С. 603-619.
8. Пестунов И. А., Бериков В. Б., Синявский Ю. Н. Сегментация многоспектральных изображений на основе ансамбля непараметрических алгоритмов кластеризации //Вестник Сибирского государственного аэрокосмического университета им. академика МФ Решетнева. - 2010. - №. 5.
9. Introduction To Mean Shift Algorithm [Электронный ресурс] - https://saravananthirumuruganathan.wordpress.com/2010/04/01/introduction-to- mean- shift-al gorithm
10. Плотностный алгоритм кластеризации (DBSCAN) [Электронный ресурс] - http: //algowiki-proj ect.org/ru/ Плотностный_алгоритм_кластеризации_(DBSCAN)