Тема: Кластеризация сайтов, исходя из расстояния, определяемой как количество пользователей, через которые сайты соединены
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Сбор используемых данных и их описание 6
1.1 Сбор данных 6
1.2 Описание данных 7
1.3 Предварительная обработка данных 8
2. Кластеризация пользователей 9
2.1 Алгоритмы кластеризации пользователей 9
2.1.1 Понятие кластерного анализа 9
2.1.2 Меры расстояний 10
2.1.3 Классификация алгоритмов 12
2.1.4 Объединение кластеров 13
2.2 Редактирование атрибутов 15
2.3 Алгоритм кластеризации 16
2.4 Мера пересечения сайтов 17
2.5 Число кластеров k 18
2.6 Результаты и их объяснение 20
3. Кластеризация сайтов 22
3.1 Общая схема исследования 22
3.2 Результаты, полученные на выборочных данных 23
4. Проверка независимости признаков и категорий сайтов 27
5. Латентный факторный анализ пользователей и их интересов 33
Заключение 40
Список использованных источников
📖 Введение
В работе многих компаний достаточно часто возникает потребность в выделении кластеров (сообществ) различных объектов: сайтов,
пользователей. Цель кластеризации, в целом, заключается в добыче новых знаний, и компаниям это необходимо, чтобы узнать своих клиентов более основательно и найти к ним индивидуальный подход, а не работать со всеми одинаково.
Существует ситуация, которая встречается достаточно часто, когда имеется довольно большое количество пользователей (клиентов), пользующиеся разными ресурсами или услугами. И все их действия записываются в электронном виде. К примеру:
• добывается информация о том, кто и когда посещал конкретную страницу (счетчики посещений);
• добывается информация о том, какие поступали запросы от пользователей (поисковые машины);
• добывается информация о том, какие тематические разделы и насколько активно посещает пользователь (различные форумы), и так далее.
Соответственно, появляется проблема: как извлекать полезную
информацию из всех этих сырых данных. Все это нужно для выделения схожих ресурсов, персонализации контента, обнаружение предпочтений пользователей, прогнозирования и еще много чего.
Для проведения необходимого исследования использовалось приложение “Sazan SRR”, при помощи которого собирались все необходимые
данные, которые в дальнейшем и были использованы для получения требуемого результата.
Актуальность данной работы заключается в том, что информация, полученная в результате деления на кластеры весьма полезна и многогранна. Вот всего лишь несколько примеров, в которых могут быть применены качественные кластеры:
• выделение групп пользователей, составленных по определенным признакам, для проведения таргетированных рекламных кампаний;
• применение выделенных кластеров для персональных рекомендаций;
• простое понимание структуры данных за счет компактной визуализации;
• сопоставление URL товаров из различных интернет-магазинов для того, чтобы выявить сегменты, которые соответствуют одинаковым товарам.
Таким образом, кластеризация сайтов в соответствии с особенностями поведения пользователей и их потребностями имеет важное значение.
Целью данного исследования является демографический анализ пользователей, их предпочтений интернет-сайтов по категориям и анализ зависимостей между особенностями пользователей и сайтами, которые они посещали.
Достижение поставленной цели обусловило постановку и решение следующих задач:
• получить набор исходных данных для исследования;
• обработать набор исходных данных и привести его в необходимый для исследования вид;
• раскрыть сущность термина кластеризация;
• выбрать и применить наиболее подходящий алгоритм кластеризации на практике;
• визуализировать полученные результаты в виде графиков и таблиц;
• провести анализ данных, полученных в результате проведенного исследования;
• провести анализ зависимостей между особенностями пользователей и категориями посещенных сайтов.
Предметом исследования является кластеризация сайтов, посещенных пользователями мобильного приложения и анализ взаимосвязи между демографическими признаками пользователей и сайтами, которые они посетили.
Объектом исследования является приложение для мобильного телефона “Sazan SRR”.
Теоретической базой исследования являются труды отечественных и зарубежных ученых: К.В. Воронцов, С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин, Л. Слоан, Ж. Морган, П. Бернап, М. Вильямс, Е. Статтнер, М. Коллард, Х. Жао, В. Замфир.
Практической базой исследования являются фактические материалы, полученные в результате работы пользователей с мобильным приложением “Sazan SRR”.
Исследование включается в себя введение, 4 главы, заключение, список использованных источников.
✅ Заключение
Также проведена проверка гипотезы о независимости признаков и категорий сайтов и латентный факторный анализ пользователей и их интересов.
В ходе выполнения выпускной квалификационной работы были выполнены следующие задачи:
1. Собраны и обработаны необходимые для исследования данные;
2. Выбран наиболее подходящий алгоритм кластеризации данных из существующих;
3. Выполнен кластерный анализ пользователей и сайтов с использованием полной связи иерархической кластеризации с евклидовым расстоянием;
4. Выполнена проверка независимости признаков и категорий сайтов;
5. Проведен латентный факторный анализ пользователей и их интересов.



