Тип работы:	Предмет:	Язык работы:

ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ ДЛЯ АНАЛИЗА ИСПОЛЬЗОВАНИЯ ИНТЕРНЕТ-РЕСУРСОВ

Работа №	17624
Тип работы	Бакалаврская работа
Предмет	математика
Объем работы	41
Год сдачи	2017
Стоимость	5750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	608

Не подходит работа?

Узнай цену на написание

Содержание

Введение 3
1 Кластеризация 6
1.1 Что такое кластеризация 6
1.2 Формальные определения 7
1.3 Выделение вектора характеристик 7
1.4 Меры расстояний 8
1.5 Классификация алгоритмов 10
1.6 Объединение кластеров 10
1.7 Алгоритмы кластеризации 12
1.8 Сравнение алгоритмов 17
1.9 Библиотеки с реализованной кластеризацией 18
2 Проектное решение и архитектура системы 20
2.1 Входные данные 20
2.2 Предобработка 21
2.3 Получение тематик сайтов 22
2.4 Нормирование векторов 24
2.5 Кластеризация 25
3 Анализ результатов 28
3.1 Визуализация 28
3.2 Оптимальное число кластеров 32
3.3 Динамический анализ 33
Заключение 38
Список использованных источников 39

Введение

Интернет постоянно растет и развивается, и каждый его пользователь оставляет свой след, используя его. Большая часть людей считают, что, просто пользуясь интернетом, ничего не загружая и не отправляя, они не оставляют о никакой информации себе во всемирной веб-паутине. Но это не так, ведь простой интернет-серфинг предоставляет о пользователе большое количество информации, даже не учитывая того, что он выкладывает в социальные сети. Под этой информацией подразумеваются истории поисковых запросов и посещенных сайтов, время серфинга, тип устройства, местоположение, браузер, ip-адрес и многое другое. Методы обработки и анализа подобного рода информации в огромных количествах называются одним общим термином Big- data.
Big-data работает с очень разнообразными данными, большая часть из которых не имеют фиксированной структуры, поэтому задача анализа этой информации является довольно сложной и интересной. В результате анализа нужной выборки данных можно получить детальные сведения о объекте или группе объектов.
В современном мире «Большие данные» широко используется в IT, Web, моделировании, бизнесе и прочих областях человеческой деятельности. Типичный пример Big-data — это сведения, поступающие с различных физических экспериментальных установок — например, с Большого адронного коллайдера, постоянно производящего колоссальное количество данных. Установка непрерывно выдает огромные объемы данных, с помощью которых ученые пытаются решать множество различных задач [6]. Еще одним примером использования Big-data являются все поисковые системы, основанные на обучающихся по этим «данным» алгоритмам. Они запоминают историю поисковых запросов пользователя, страницы, которые он посещает, его предпочтения, и с помощью полученной информации могут подсказывать пользователю интересующие его поисковые запросы, или дополнять их, а также сначала выдавать результаты, которые считают наиболее полезными. Но на этом использование результатов анализа интернет активности не заканчивается. Уже частично тестируется поиск преступников, предотвращение терактов, а также определение суицидальных наклонностей только по истории интернет-сёрфинга.
В сфере бизнеса «Большие данные» не менее актуальны, чем в Web и IT. Имея необходимые данные, например, предпочтения покупателя, магазины могут предлагать одежду, которая придется ему по вкусу или книги, сюжет которых его явно заинтересует.
Все эти, а также другие задачи можно решать различными алгоритмами, одним из которых является «Кластерный анализ», служащий для разбиения множества объектов определенной структуры на подмножества по неко торым комбинированным признакам. Главной его особенностью является отсутствие фиксированного набора параметров для разбиения. Разбиение происходит по совокупности признаков, таким образом, что объекты одного множества имеют примерно одинаковые характеристики.
Суммируя сказанное, можно заключить, что кластерный анализ больших данных является актуальной задачей на сегодняшний день.
В процессе работы прокси-сервера, обеспечивающего пользователям доступ в интернет, ведутся записи информации об интернет активности каждого пользователя, в целях безопасности и мониторинга системы.
Прокси-сервер - это сервер, выступающий промежуточным слоем или посредником между клиентами и ресурсами, находящимися на другом сервере. В качестве ресурса может выступать любая доступная информация из мировой сети, так как вся она хранится на различных серверах.
На основе данных об интернет активности можно решать различные задачи: оптимизировать систему, уменьшая нагрузку путем распределения ресурсов, улучшить ее защиту, отслеживать действия, которые могут навредить системе, или пользователей с подозрительной активностью.
Каждая запись в журнале проси-сервера содержит достаточное количество информации о пользователе и запросе для последующего анализа, а именно:
1) Данные о пользователе: логин и ip-адрес.
2) Данные о запросе: время выполнения, размер, метод, URL-адрес и тип контента.
Анализируя полученный набор данных, можно разделить множество пользователей прокси-сервера на некоторые подгруппы, например, по предпочитаемым тематикам сайтов, и выделить группы пользователей, которые держатся вместе на протяжение длительного периода и, следовательно , имеют схожие предпочтения.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

В работе получены следующие результаты:
1. обработаны записи журнала прокси-сервера за период равный одному месяцу;
2. выполнена предобработка на основе Яндекс-каталога, позволившая снизить размерность пространства кластеризации 4000 до 160;
3. произведена иерархическая кластеризация пользователей прокси-сервера, по популярности тематик сайтов для каждого пользователя;
4. выявлены оптимальные значения числа кластеров;
5. выделены устойчивые группы пользователей со схожими предпочтениями .
Полученные результаты могут быть использованы для решения различных задач с использованием кластеризации слабоструктурированных данных.

Литература

1. Бериков, В. С. Современные тенденции в кластерном анализе / В. С. Бериков, Г. С. Лбов. - Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению "Информационно - телекоммуникационные системы", 2008. - 26 c.
2. Ганенкова, Е. Г. Функциональный анализ: основные классы пространств /
E. Г. Ганенкова, К. Ф. Амозова. - Петрозаводск: ПетрГУ, 2013. - 26 c.
3. Ершов, К. С. Анализ и классификация алгоритмов кластеризации / К. С. Ершов, Т. Н. Романова. // Новые информационные технологии в автоматизированных системах. - 2016. - №19. - С. 274-279.
4. Котов, А. Кластеризация данных [Электронный ресурс]. - Режим доступа: http://logic.pdmi.ras.ru/~yura/internet/02ia-seminar-note.pdf.
5. Мандель, И. Д. Кластерный анализ / И. Д. Мандель. - М.: Финансы и статика, 1988. - 176 c.
6. Протасов, C.C. Как большие данные стали одной из самых интересных задач IT-индустрии [Электронный ресурс]. - Режим доступа:
http://andrew--r.github.io/bigdata/.
7. Суслов, С. А. Кластерный анализ: сущность, преимущества и недостатки / С. А. Суслов. // Вестник НГИЭИ. - 2011. - №1. - С. 51-56.
8. Blanco-Silva, F. J. Learning SciPy for Numerical and Scientific Computing /
F. J. Blanco-Silva. - Packt publishing, 2015. - 150 p.
9. Downey, A. B. Think Python: An Introduction to Software Design / A. B. Downey. - O'Reilly Media, 2002. - 300 p.
10. Duran, B. S. Cluster Analysis - A Survey / B. S. Duran, P. L. Odell. - Springer, 1974. - 146 p.
11. Jain, A. K. Data Clustering: A Review / A. K. Jain, M. N. Murty, P. J. Flynn.
- ACM Computing Surveys, 1999. - 323 p.
12. Lutz, M. Programming Python / M. Lutz. - O'Reilly Media, 1996. - 1632 p.
13. McKinney, W. Python for Data Analysis: Data Wrangling with P and as, NumPy, and IPython / W. McKinney. - O'Reilly Media, 2012. - 429 p.
14. Muller, A. C. Introduction to Machine Learning with Python: A Guide for Data Scientists / A. C. Muller, S. Guido. - O'Reilly Media, 2016. - 394 p.
15. VanderPlas, J. Python Data Science Handbook: Essential Tools for Wo rking with Data / J. VanderPlas. - O'Reilly Media, 2016. - 548 p.
16. Wessels, D. Squid: The Definitive Guide / D. Wessels. - O'Reilly Media, 2004. - 466 p.
17. Wessels, D. Internet Cache Protocol (ICP), version 2, 1997 [Электронный
ресурс] / D. Wessels, K. Claffy - Режим доступа:
https://tools.ietf.org/html/rfc2186.