Тип работы:
Предмет:
Язык работы:


Использование методов кластеризации для определения инфраструктур пользователя на основе GPS-координат

Работа №52628

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы60
Год сдачи2017
Стоимость4355 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
301
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
1 ПОСТАНОВКА ЗАДАЧИ 5
1.1 Кластеризация географических координат 5
1.2 Программная реализация 5
2 ИНСТРУМЕНТЫ РАЗРАБОТКИ 6
2.1 Java 6
2.2. Python и библиотека scikit-learn 7
2.3 Intellij IDEA 8
3 КЛАСТЕРИЗАЦИЯ МЕТОДОМ K-MEANS 11
3.1 Описание алгоритма 11
3.2 K-means в scikit-learn языка Python 12
4 КЛАСТЕРИЗАЦИЯ МЕТОДОМ MEANSHIFT 13
4.1 Оценка плотности распределения 13
4.2 Профиль-функция 17
4.3 Градиент функции плотности 17
4.4 Алгоритм MeanShift 19
4.5 MeanShift в scikit-learn языка Python 20
5 КЛАСТЕРИЗАЦИЯ МЕТОДОМ DBSCAN 22
5.1 Описание алгоритма 22
5.2 DBSCAN в scikit-learn языка Python 23
6 РЕАЛИЗОВАННЫЙ МОДУЛЬ И ТЕСТИРОВАНИЕ 25
6.1 Тестовая выборка 25
6.2 Входные данные 27
6.3 Выходные данные 27
6.4 Архитектура приложения 28
6.5 Веб-представление 28
6.6 Java-сервер 30
6.7 Google Maps API 33
6.8 Визуализация проведенных экспериментов 34
ЗАКЛЮЧЕНИЕ 38
СПИСОК ЛИТЕРАТУРЫ 39
ПРИЛОЖЕНИЕ 40


В настоящее время актуально развитие таргетинга - механизма, позволяющего выделить из имеющейся аудитории только ту часть, которая удовлетворяет заданным критериям. Данный подход активно применяется в рекламе, поскольку формирует максимально релевантную аудиторию исходя из характеристик каждого пользователя. Такими характеристиками могут быть возраст, пол, семейное положение, образование. Данные об этих параметрах позволят предложить пользователю информацию, которая действительно представляет для него интерес.
Особенное развитие получает направление геотаргетинга. Данный вид таргетинга выдает пользователю контент, соответствующий его географическому положению. Такая географическая привязка дает возможность рекламодателю сообщить о локальных мероприятиях, а пользователю - получить услуги максимально соответствующие его географическому положению. Информация, получаемая пользователем, содержит актуальные данные какой-либо компании и расположение ближайшего к нему офиса, а также товары и услуги близкие к месторасположению пользователя.
На данный момент инструменты, реализующие механизм геотаргетинга базируются на анализе IP-адреса пользователя и окружающих его wifi-сетей, а также на основе данных, которые пользователь сам внес в систему. Такие решения не позволяют получить точное месторасположение пользователя, либо анализируют единичные посещения. Следовательно, контент, выдаваемый системой пользователю, не является релевантным.
В случае, когда система имеет информацию о тех областях, где пользователь пребывает регулярно, например, местожительство, дом родителей, место работы и т.д., мы можем сформировать список инфраструктур, наиболее интересных пользователю.
Подобная информация имеет широкое применение не только в геотаргетинговой рекламе. Статистический анализ таких данных позволит правильно организовывать среду проживания граждан, например, при проектировании
транспортной системы, организации пунктов выдачи товаров, определении наилучших месторасположений магазинов и офисов.
Задача формирования областей регулярного пребывания пользователя может быть решена с использованием методов кластеризации, где входными данными являются координаты пользователя, собранные в течение определенного временного промежутка. Каждый кластер представляет собой область периодического пребывания пользователя.
Таким образом, целью настоящей дипломной работы является разработка программного инструмента, решающего проблему поиска максимально релевантного списка инфраструктур для пользователя на основе его географических координат. Данный список будет формироваться исходя из информации о местоположениях пользователя.
Для достижения поставленной цели были решены следующие задачи:
• Анализ существующих методов кластеризации.
• Выбор оптимального метода для решения задачи определения областей постоянного пребывания пользователя.
• Применение выбранного метода для определения его эффективности на большом объеме данных.
• Анализ результатов кластеризации и их визуализация.
• Написание программного модуля, входными данными которого является массив географических координат пользователя, а выходными - список наиболее релевантных инфраструктур.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В ходе выполнения настоящей дипломной работы было разработано клиент-серверное приложение geoclient для поиска релевантных инфраструктур пользователя на основе множества его географических координат.
Наиболее важными результатами проведенной работы является реализация клиент-серверного приложения-сайта, а также реализация скриптов кластеризации данных.
Данное приложение
• Имеет удобный пользовательский интерфейс;
• имеет возможность развертывания на сторонних серверах;
• имеет масштабируемую архитектуру;
• предлагает программный интерфейс (API) для поддержки взаимодействия с другими системами.
Таким образом, все поставленные перед дипломной работой задачи полностью выполнены.
Предполагается дальнейшее развитие данной системы, а именно решение следующих задач:
1. Реализация и тестирование других алгоритмов кластеризации.
2. Реализация API для мобильных приложений.
3. Повышение эффективности работы приложения за счет кэширования данных кластеризации и сохранения побочных результатов работы программы.



1. Макарова Е. А. Особенности контекстной рекламы в интернете //Актуальные вопросы экономических наук. - 2012. - №. 25-1.
2. Вологина О. В. Антикризисные решения для b-2-c: сегментирование и геотаргетинг //Интернет-маркетинг. - 2015. - Т. 4. - С. 250-260.
3. Тиндова М. Г. Предварительная кластеризация многомерных объектов в интеллектуальном анализе данных //Вестник Саратовского государственного социально-экономического университета. - 2008. - №. 04.
4. An introduction to kernel density estimation [Электронный ресурс] - http://www.mvstat.net/tduong/research/seminars/seminar-2001-05.pdf
5. Parzen-Window Density Estimation, [Электронный ресурс] - https://www.cs.utah.edu/~suyash/Dissertation html/node11.html
6. Guidoum A. C. Kernel estimator and bandwidth selection for density and its derivatives. - 2013.
7. Comaniciu D., Meer P. Mean shift: A robust approach toward feature space analysis //IEEE Transactions on pattern analysis and machine intelligence. - 2002. - Т. 24. - №. 5. - С. 603-619.
8. Пестунов И. А., Бериков В. Б., Синявский Ю. Н. Сегментация многоспектральных изображений на основе ансамбля непараметрических алгоритмов кластеризации //Вестник Сибирского государственного аэрокосмического университета им. академика МФ Решетнева. - 2010. - №. 5.
9. Introduction To Mean Shift Algorithm [Электронный ресурс] - https://saravananthirumuruganathan.wordpress.com/2010/04/01/introduction-to- mean- shift-al gorithm
10. Плотностный алгоритм кластеризации (DBSCAN) [Электронный ресурс] - http: //algowiki-proj ect.org/ru/ Плотностный_алгоритм_кластеризации_(DBSCAN)


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ