Тема: Использование методов кластеризации для определения инфраструктур пользователя на основе GPS-координат
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 ПОСТАНОВКА ЗАДАЧИ 5
1.1 Кластеризация географических координат 5
1.2 Программная реализация 5
2 ИНСТРУМЕНТЫ РАЗРАБОТКИ 6
2.1 Java 6
2.2. Python и библиотека scikit-learn 7
2.3 Intellij IDEA 8
3 КЛАСТЕРИЗАЦИЯ МЕТОДОМ K-MEANS 11
3.1 Описание алгоритма 11
3.2 K-means в scikit-learn языка Python 12
4 КЛАСТЕРИЗАЦИЯ МЕТОДОМ MEANSHIFT 13
4.1 Оценка плотности распределения 13
4.2 Профиль-функция 17
4.3 Градиент функции плотности 17
4.4 Алгоритм MeanShift 19
4.5 MeanShift в scikit-learn языка Python 20
5 КЛАСТЕРИЗАЦИЯ МЕТОДОМ DBSCAN 22
5.1 Описание алгоритма 22
5.2 DBSCAN в scikit-learn языка Python 23
6 РЕАЛИЗОВАННЫЙ МОДУЛЬ И ТЕСТИРОВАНИЕ 25
6.1 Тестовая выборка 25
6.2 Входные данные 27
6.3 Выходные данные 27
6.4 Архитектура приложения 28
6.5 Веб-представление 28
6.6 Java-сервер 30
6.7 Google Maps API 33
6.8 Визуализация проведенных экспериментов 34
ЗАКЛЮЧЕНИЕ 38
СПИСОК ЛИТЕРАТУРЫ 39
ПРИЛОЖЕНИЕ 40
📖 Введение
Особенное развитие получает направление геотаргетинга. Данный вид таргетинга выдает пользователю контент, соответствующий его географическому положению. Такая географическая привязка дает возможность рекламодателю сообщить о локальных мероприятиях, а пользователю - получить услуги максимально соответствующие его географическому положению. Информация, получаемая пользователем, содержит актуальные данные какой-либо компании и расположение ближайшего к нему офиса, а также товары и услуги близкие к месторасположению пользователя.
На данный момент инструменты, реализующие механизм геотаргетинга базируются на анализе IP-адреса пользователя и окружающих его wifi-сетей, а также на основе данных, которые пользователь сам внес в систему. Такие решения не позволяют получить точное месторасположение пользователя, либо анализируют единичные посещения. Следовательно, контент, выдаваемый системой пользователю, не является релевантным.
В случае, когда система имеет информацию о тех областях, где пользователь пребывает регулярно, например, местожительство, дом родителей, место работы и т.д., мы можем сформировать список инфраструктур, наиболее интересных пользователю.
Подобная информация имеет широкое применение не только в геотаргетинговой рекламе. Статистический анализ таких данных позволит правильно организовывать среду проживания граждан, например, при проектировании
транспортной системы, организации пунктов выдачи товаров, определении наилучших месторасположений магазинов и офисов.
Задача формирования областей регулярного пребывания пользователя может быть решена с использованием методов кластеризации, где входными данными являются координаты пользователя, собранные в течение определенного временного промежутка. Каждый кластер представляет собой область периодического пребывания пользователя.
Таким образом, целью настоящей дипломной работы является разработка программного инструмента, решающего проблему поиска максимально релевантного списка инфраструктур для пользователя на основе его географических координат. Данный список будет формироваться исходя из информации о местоположениях пользователя.
Для достижения поставленной цели были решены следующие задачи:
• Анализ существующих методов кластеризации.
• Выбор оптимального метода для решения задачи определения областей постоянного пребывания пользователя.
• Применение выбранного метода для определения его эффективности на большом объеме данных.
• Анализ результатов кластеризации и их визуализация.
• Написание программного модуля, входными данными которого является массив географических координат пользователя, а выходными - список наиболее релевантных инфраструктур.
✅ Заключение
Наиболее важными результатами проведенной работы является реализация клиент-серверного приложения-сайта, а также реализация скриптов кластеризации данных.
Данное приложение
• Имеет удобный пользовательский интерфейс;
• имеет возможность развертывания на сторонних серверах;
• имеет масштабируемую архитектуру;
• предлагает программный интерфейс (API) для поддержки взаимодействия с другими системами.
Таким образом, все поставленные перед дипломной работой задачи полностью выполнены.
Предполагается дальнейшее развитие данной системы, а именно решение следующих задач:
1. Реализация и тестирование других алгоритмов кластеризации.
2. Реализация API для мобильных приложений.
3. Повышение эффективности работы приложения за счет кэширования данных кластеризации и сохранения побочных результатов работы программы.



