📄Работа №17624

Тема: ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ ДЛЯ АНАЛИЗА ИСПОЛЬЗОВАНИЯ ИНТЕРНЕТ-РЕСУРСОВ

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Математика

📄

Объем: 41 листов

📅

Год: 2017

👁️

5750 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
1 Кластеризация 6
1.1 Что такое кластеризация 6
1.2 Формальные определения 7
1.3 Выделение вектора характеристик 7
1.4 Меры расстояний 8
1.5 Классификация алгоритмов 10
1.6 Объединение кластеров 10
1.7 Алгоритмы кластеризации 12
1.8 Сравнение алгоритмов 17
1.9 Библиотеки с реализованной кластеризацией 18
2 Проектное решение и архитектура системы 20
2.1 Входные данные 20
2.2 Предобработка 21
2.3 Получение тематик сайтов 22
2.4 Нормирование векторов 24
2.5 Кластеризация 25
3 Анализ результатов 28
3.1 Визуализация 28
3.2 Оптимальное число кластеров 32
3.3 Динамический анализ 33
Заключение 38
Список использованных источников 39

📖 Введение

Интернет постоянно растет и развивается, и каждый его пользователь оставляет свой след, используя его. Большая часть людей считают, что, просто пользуясь интернетом, ничего не загружая и не отправляя, они не оставляют о никакой информации себе во всемирной веб-паутине. Но это не так, ведь простой интернет-серфинг предоставляет о пользователе большое количество информации, даже не учитывая того, что он выкладывает в социальные сети. Под этой информацией подразумеваются истории поисковых запросов и посещенных сайтов, время серфинга, тип устройства, местоположение, браузер, ip-адрес и многое другое. Методы обработки и анализа подобного рода информации в огромных количествах называются одним общим термином Big- data.
Big-data работает с очень разнообразными данными, большая часть из которых не имеют фиксированной структуры, поэтому задача анализа этой информации является довольно сложной и интересной. В результате анализа нужной выборки данных можно получить детальные сведения о объекте или группе объектов.
В современном мире «Большие данные» широко используется в IT, Web, моделировании, бизнесе и прочих областях человеческой деятельности. Типичный пример Big-data — это сведения, поступающие с различных физических экспериментальных установок — например, с Большого адронного коллайдера, постоянно производящего колоссальное количество данных. Установка непрерывно выдает огромные объемы данных, с помощью которых ученые пытаются решать множество различных задач [6]. Еще одним примером использования Big-data являются все поисковые системы, основанные на обучающихся по этим «данным» алгоритмам. Они запоминают историю поисковых запросов пользователя, страницы, которые он посещает, его предпочтения, и с помощью полученной информации могут подсказывать пользователю интересующие его поисковые запросы, или дополнять их, а также сначала выдавать результаты, которые считают наиболее полезными. Но на этом использование результатов анализа интернет активности не заканчивается. Уже частично тестируется поиск преступников, предотвращение терактов, а также определение суицидальных наклонностей только по истории интернет-сёрфинга.
В сфере бизнеса «Большие данные» не менее актуальны, чем в Web и IT. Имея необходимые данные, например, предпочтения покупателя, магазины могут предлагать одежду, которая придется ему по вкусу или книги, сюжет которых его явно заинтересует.
Все эти, а также другие задачи можно решать различными алгоритмами, одним из которых является «Кластерный анализ», служащий для разбиения множества объектов определенной структуры на подмножества по неко торым комбинированным признакам. Главной его особенностью является отсутствие фиксированного набора параметров для разбиения. Разбиение происходит по совокупности признаков, таким образом, что объекты одного множества имеют примерно одинаковые характеристики.
Суммируя сказанное, можно заключить, что кластерный анализ больших данных является актуальной задачей на сегодняшний день.
В процессе работы прокси-сервера, обеспечивающего пользователям доступ в интернет, ведутся записи информации об интернет активности каждого пользователя, в целях безопасности и мониторинга системы.
Прокси-сервер - это сервер, выступающий промежуточным слоем или посредником между клиентами и ресурсами, находящимися на другом сервере. В качестве ресурса может выступать любая доступная информация из мировой сети, так как вся она хранится на различных серверах.
На основе данных об интернет активности можно решать различные задачи: оптимизировать систему, уменьшая нагрузку путем распределения ресурсов, улучшить ее защиту, отслеживать действия, которые могут навредить системе, или пользователей с подозрительной активностью.
Каждая запись в журнале проси-сервера содержит достаточное количество информации о пользователе и запросе для последующего анализа, а именно:
1) Данные о пользователе: логин и ip-адрес.
2) Данные о запросе: время выполнения, размер, метод, URL-адрес и тип контента.
Анализируя полученный набор данных, можно разделить множество пользователей прокси-сервера на некоторые подгруппы, например, по предпочитаемым тематикам сайтов, и выделить группы пользователей, которые держатся вместе на протяжение длительного периода и, следовательно , имеют схожие предпочтения.

✅ Заключение

В работе получены следующие результаты:
1. обработаны записи журнала прокси-сервера за период равный одному месяцу;
2. выполнена предобработка на основе Яндекс-каталога, позволившая снизить размерность пространства кластеризации 4000 до 160;
3. произведена иерархическая кластеризация пользователей прокси-сервера, по популярности тематик сайтов для каждого пользователя;
4. выявлены оптимальные значения числа кластеров;
5. выделены устойчивые группы пользователей со схожими предпочтениями .
Полученные результаты могут быть использованы для решения различных задач с использованием кластеризации слабоструктурированных данных.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Бериков, В. С. Современные тенденции в кластерном анализе / В. С. Бериков, Г. С. Лбов. - Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению "Информационно - телекоммуникационные системы", 2008. - 26 c.
2. Ганенкова, Е. Г. Функциональный анализ: основные классы пространств /
E. Г. Ганенкова, К. Ф. Амозова. - Петрозаводск: ПетрГУ, 2013. - 26 c.
3. Ершов, К. С. Анализ и классификация алгоритмов кластеризации / К. С. Ершов, Т. Н. Романова. // Новые информационные технологии в автоматизированных системах. - 2016. - №19. - С. 274-279.
4. Котов, А. Кластеризация данных [Электронный ресурс]. - Режим доступа: http://logic.pdmi.ras.ru/~yura/internet/02ia-seminar-note.pdf.
5. Мандель, И. Д. Кластерный анализ / И. Д. Мандель. - М.: Финансы и статика, 1988. - 176 c.
6. Протасов, C.C. Как большие данные стали одной из самых интересных задач IT-индустрии [Электронный ресурс]. - Режим доступа:
http://andrew--r.github.io/bigdata/.
7. Суслов, С. А. Кластерный анализ: сущность, преимущества и недостатки / С. А. Суслов. // Вестник НГИЭИ. - 2011. - №1. - С. 51-56.
8. Blanco-Silva, F. J. Learning SciPy for Numerical and Scientific Computing /
F. J. Blanco-Silva. - Packt publishing, 2015. - 150 p.
9. Downey, A. B. Think Python: An Introduction to Software Design / A. B. Downey. - O'Reilly Media, 2002. - 300 p.
10. Duran, B. S. Cluster Analysis - A Survey / B. S. Duran, P. L. Odell. - Springer, 1974. - 146 p.
11. Jain, A. K. Data Clustering: A Review / A. K. Jain, M. N. Murty, P. J. Flynn.
- ACM Computing Surveys, 1999. - 323 p.
12. Lutz, M. Programming Python / M. Lutz. - O'Reilly Media, 1996. - 1632 p.
13. McKinney, W. Python for Data Analysis: Data Wrangling with P and as, NumPy, and IPython / W. McKinney. - O'Reilly Media, 2012. - 429 p.
14. Muller, A. C. Introduction to Machine Learning with Python: A Guide for Data Scientists / A. C. Muller, S. Guido. - O'Reilly Media, 2016. - 394 p.
15. VanderPlas, J. Python Data Science Handbook: Essential Tools for Wo rking with Data / J. VanderPlas. - O'Reilly Media, 2016. - 548 p.
16. Wessels, D. Squid: The Definitive Guide / D. Wessels. - O'Reilly Media, 2004. - 466 p.
17. Wessels, D. Internet Cache Protocol (ICP), version 2, 1997 [Электронный
ресурс] / D. Wessels, K. Claffy - Режим доступа:
https://tools.ietf.org/html/rfc2186.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211438)

Статьи

»» Все статьи

Вход в личный кабинет