ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ ДЛЯ АНАЛИЗА ИСПОЛЬЗОВАНИЯ ИНТЕРНЕТ-РЕСУРСОВ
|
Введение 3
1 Кластеризация 6
1.1 Что такое кластеризация 6
1.2 Формальные определения 7
1.3 Выделение вектора характеристик 7
1.4 Меры расстояний 8
1.5 Классификация алгоритмов 10
1.6 Объединение кластеров 10
1.7 Алгоритмы кластеризации 12
1.8 Сравнение алгоритмов 17
1.9 Библиотеки с реализованной кластеризацией 18
2 Проектное решение и архитектура системы 20
2.1 Входные данные 20
2.2 Предобработка 21
2.3 Получение тематик сайтов 22
2.4 Нормирование векторов 24
2.5 Кластеризация 25
3 Анализ результатов 28
3.1 Визуализация 28
3.2 Оптимальное число кластеров 32
3.3 Динамический анализ 33
Заключение 38
Список использованных источников 39
1 Кластеризация 6
1.1 Что такое кластеризация 6
1.2 Формальные определения 7
1.3 Выделение вектора характеристик 7
1.4 Меры расстояний 8
1.5 Классификация алгоритмов 10
1.6 Объединение кластеров 10
1.7 Алгоритмы кластеризации 12
1.8 Сравнение алгоритмов 17
1.9 Библиотеки с реализованной кластеризацией 18
2 Проектное решение и архитектура системы 20
2.1 Входные данные 20
2.2 Предобработка 21
2.3 Получение тематик сайтов 22
2.4 Нормирование векторов 24
2.5 Кластеризация 25
3 Анализ результатов 28
3.1 Визуализация 28
3.2 Оптимальное число кластеров 32
3.3 Динамический анализ 33
Заключение 38
Список использованных источников 39
Интернет постоянно растет и развивается, и каждый его пользователь оставляет свой след, используя его. Большая часть людей считают, что, просто пользуясь интернетом, ничего не загружая и не отправляя, они не оставляют о никакой информации себе во всемирной веб-паутине. Но это не так, ведь простой интернет-серфинг предоставляет о пользователе большое количество информации, даже не учитывая того, что он выкладывает в социальные сети. Под этой информацией подразумеваются истории поисковых запросов и посещенных сайтов, время серфинга, тип устройства, местоположение, браузер, ip-адрес и многое другое. Методы обработки и анализа подобного рода информации в огромных количествах называются одним общим термином Big- data.
Big-data работает с очень разнообразными данными, большая часть из которых не имеют фиксированной структуры, поэтому задача анализа этой информации является довольно сложной и интересной. В результате анализа нужной выборки данных можно получить детальные сведения о объекте или группе объектов.
В современном мире «Большие данные» широко используется в IT, Web, моделировании, бизнесе и прочих областях человеческой деятельности. Типичный пример Big-data — это сведения, поступающие с различных физических экспериментальных установок — например, с Большого адронного коллайдера, постоянно производящего колоссальное количество данных. Установка непрерывно выдает огромные объемы данных, с помощью которых ученые пытаются решать множество различных задач [6]. Еще одним примером использования Big-data являются все поисковые системы, основанные на обучающихся по этим «данным» алгоритмам. Они запоминают историю поисковых запросов пользователя, страницы, которые он посещает, его предпочтения, и с помощью полученной информации могут подсказывать пользователю интересующие его поисковые запросы, или дополнять их, а также сначала выдавать результаты, которые считают наиболее полезными. Но на этом использование результатов анализа интернет активности не заканчивается. Уже частично тестируется поиск преступников, предотвращение терактов, а также определение суицидальных наклонностей только по истории интернет-сёрфинга.
В сфере бизнеса «Большие данные» не менее актуальны, чем в Web и IT. Имея необходимые данные, например, предпочтения покупателя, магазины могут предлагать одежду, которая придется ему по вкусу или книги, сюжет которых его явно заинтересует.
Все эти, а также другие задачи можно решать различными алгоритмами, одним из которых является «Кластерный анализ», служащий для разбиения множества объектов определенной структуры на подмножества по неко торым комбинированным признакам. Главной его особенностью является отсутствие фиксированного набора параметров для разбиения. Разбиение происходит по совокупности признаков, таким образом, что объекты одного множества имеют примерно одинаковые характеристики.
Суммируя сказанное, можно заключить, что кластерный анализ больших данных является актуальной задачей на сегодняшний день.
В процессе работы прокси-сервера, обеспечивающего пользователям доступ в интернет, ведутся записи информации об интернет активности каждого пользователя, в целях безопасности и мониторинга системы.
Прокси-сервер - это сервер, выступающий промежуточным слоем или посредником между клиентами и ресурсами, находящимися на другом сервере. В качестве ресурса может выступать любая доступная информация из мировой сети, так как вся она хранится на различных серверах.
На основе данных об интернет активности можно решать различные задачи: оптимизировать систему, уменьшая нагрузку путем распределения ресурсов, улучшить ее защиту, отслеживать действия, которые могут навредить системе, или пользователей с подозрительной активностью.
Каждая запись в журнале проси-сервера содержит достаточное количество информации о пользователе и запросе для последующего анализа, а именно:
1) Данные о пользователе: логин и ip-адрес.
2) Данные о запросе: время выполнения, размер, метод, URL-адрес и тип контента.
Анализируя полученный набор данных, можно разделить множество пользователей прокси-сервера на некоторые подгруппы, например, по предпочитаемым тематикам сайтов, и выделить группы пользователей, которые держатся вместе на протяжение длительного периода и, следовательно , имеют схожие предпочтения.
Big-data работает с очень разнообразными данными, большая часть из которых не имеют фиксированной структуры, поэтому задача анализа этой информации является довольно сложной и интересной. В результате анализа нужной выборки данных можно получить детальные сведения о объекте или группе объектов.
В современном мире «Большие данные» широко используется в IT, Web, моделировании, бизнесе и прочих областях человеческой деятельности. Типичный пример Big-data — это сведения, поступающие с различных физических экспериментальных установок — например, с Большого адронного коллайдера, постоянно производящего колоссальное количество данных. Установка непрерывно выдает огромные объемы данных, с помощью которых ученые пытаются решать множество различных задач [6]. Еще одним примером использования Big-data являются все поисковые системы, основанные на обучающихся по этим «данным» алгоритмам. Они запоминают историю поисковых запросов пользователя, страницы, которые он посещает, его предпочтения, и с помощью полученной информации могут подсказывать пользователю интересующие его поисковые запросы, или дополнять их, а также сначала выдавать результаты, которые считают наиболее полезными. Но на этом использование результатов анализа интернет активности не заканчивается. Уже частично тестируется поиск преступников, предотвращение терактов, а также определение суицидальных наклонностей только по истории интернет-сёрфинга.
В сфере бизнеса «Большие данные» не менее актуальны, чем в Web и IT. Имея необходимые данные, например, предпочтения покупателя, магазины могут предлагать одежду, которая придется ему по вкусу или книги, сюжет которых его явно заинтересует.
Все эти, а также другие задачи можно решать различными алгоритмами, одним из которых является «Кластерный анализ», служащий для разбиения множества объектов определенной структуры на подмножества по неко торым комбинированным признакам. Главной его особенностью является отсутствие фиксированного набора параметров для разбиения. Разбиение происходит по совокупности признаков, таким образом, что объекты одного множества имеют примерно одинаковые характеристики.
Суммируя сказанное, можно заключить, что кластерный анализ больших данных является актуальной задачей на сегодняшний день.
В процессе работы прокси-сервера, обеспечивающего пользователям доступ в интернет, ведутся записи информации об интернет активности каждого пользователя, в целях безопасности и мониторинга системы.
Прокси-сервер - это сервер, выступающий промежуточным слоем или посредником между клиентами и ресурсами, находящимися на другом сервере. В качестве ресурса может выступать любая доступная информация из мировой сети, так как вся она хранится на различных серверах.
На основе данных об интернет активности можно решать различные задачи: оптимизировать систему, уменьшая нагрузку путем распределения ресурсов, улучшить ее защиту, отслеживать действия, которые могут навредить системе, или пользователей с подозрительной активностью.
Каждая запись в журнале проси-сервера содержит достаточное количество информации о пользователе и запросе для последующего анализа, а именно:
1) Данные о пользователе: логин и ip-адрес.
2) Данные о запросе: время выполнения, размер, метод, URL-адрес и тип контента.
Анализируя полученный набор данных, можно разделить множество пользователей прокси-сервера на некоторые подгруппы, например, по предпочитаемым тематикам сайтов, и выделить группы пользователей, которые держатся вместе на протяжение длительного периода и, следовательно , имеют схожие предпочтения.
В работе получены следующие результаты:
1. обработаны записи журнала прокси-сервера за период равный одному месяцу;
2. выполнена предобработка на основе Яндекс-каталога, позволившая снизить размерность пространства кластеризации 4000 до 160;
3. произведена иерархическая кластеризация пользователей прокси-сервера, по популярности тематик сайтов для каждого пользователя;
4. выявлены оптимальные значения числа кластеров;
5. выделены устойчивые группы пользователей со схожими предпочтениями .
Полученные результаты могут быть использованы для решения различных задач с использованием кластеризации слабоструктурированных данных.
1. обработаны записи журнала прокси-сервера за период равный одному месяцу;
2. выполнена предобработка на основе Яндекс-каталога, позволившая снизить размерность пространства кластеризации 4000 до 160;
3. произведена иерархическая кластеризация пользователей прокси-сервера, по популярности тематик сайтов для каждого пользователя;
4. выявлены оптимальные значения числа кластеров;
5. выделены устойчивые группы пользователей со схожими предпочтениями .
Полученные результаты могут быть использованы для решения различных задач с использованием кластеризации слабоструктурированных данных.
Подобные работы
- Применение методов машинного обучения в задачах анализа новостных медиа
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2018 - Разработка интерфейса к серверной базе данных для решения задач
медицинской диагностики с применением методов интеллектуального
анализа данных
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 5680 р. Год сдачи: 2017 - Динамика социальных и культурных связей общественного движения «За новый социализм»: смешанный метод в сетевом анализе
Бакалаврская работа, политология. Язык работы: Русский. Цена: 4310 р. Год сдачи: 2023 - Система кластеризации электрорадио изделий
Главы к дипломным работам, информационные системы. Язык работы: Русский. Цена: 7300 р. Год сдачи: 2018 - РАЗРАБОТКА КОНФИГУРАТОРА АВТОМОБИЛЕЙ «КАМАЗ» С
ПРИМЕНЕНИЕМ МЕТОДОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Дипломные работы, ВКР, автомобили и автомобильное хозяйство. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2019 - РАЗРАБОТКА ФОРМАЛЬНО-ЛОГИЧЕСКИХ СРЕДСТВ
КЛАСТЕРИЗАЦИИ ПОЛЬЗОВАТЕЛЕЙ ДЛЯ
АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ УПРАВЛЕНИЯ КОНТЕНТОМ
WEB-РЕСУРСА
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4800 р. Год сдачи: 2018 - Разработка программного модуля по реализации функции
интеллектуальной обработки данных для системы 1С-Битрикс
Бакалаврская работа, программирование. Язык работы: Русский. Цена: 4940 р. Год сдачи: 2016 - Автоматизация аналитической деятельности компании Моmchecked с применением методов машинного обучения
Магистерская диссертация, экономика. Язык работы: Русский. Цена: 5500 р. Год сдачи: 2019 - РАЗВИТИЕ МЕТОДОЛОГИИ СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ РОЖДАЕМОСТИ В РОССИЙСКИХ РЕГИОНАХ
Диссертации (РГБ), бухгалтерский учет, анализ и аудит. Язык работы: Русский. Цена: 4385 р. Год сдачи: 2020



