Тип работы:
Предмет:
Язык работы:


Кластеризация сайтов, исходя из расстояния, определяемой как количество пользователей, через которые сайты соединены

Работа №61844

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы43
Год сдачи2017
Стоимость4760 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
37
Не подходит работа?

Узнай цену на написание


Введение 3
1. Сбор используемых данных и их описание 6
1.1 Сбор данных 6
1.2 Описание данных 7
1.3 Предварительная обработка данных 8
2. Кластеризация пользователей 9
2.1 Алгоритмы кластеризации пользователей 9
2.1.1 Понятие кластерного анализа 9
2.1.2 Меры расстояний 10
2.1.3 Классификация алгоритмов 12
2.1.4 Объединение кластеров 13
2.2 Редактирование атрибутов 15
2.3 Алгоритм кластеризации 16
2.4 Мера пересечения сайтов 17
2.5 Число кластеров k 18
2.6 Результаты и их объяснение 20
3. Кластеризация сайтов 22
3.1 Общая схема исследования 22
3.2 Результаты, полученные на выборочных данных 23
4. Проверка независимости признаков и категорий сайтов 27
5. Латентный факторный анализ пользователей и их интересов 33
Заключение 40
Список использованных источников


Для написания выпускной квалификационной работы была выбрана тема: “Кластеризация сайтов, исходя из расстояния, определяемой как количество пользователей, через которые сайты соединены”.
В работе многих компаний достаточно часто возникает потребность в выделении кластеров (сообществ) различных объектов: сайтов,
пользователей. Цель кластеризации, в целом, заключается в добыче новых знаний, и компаниям это необходимо, чтобы узнать своих клиентов более основательно и найти к ним индивидуальный подход, а не работать со всеми одинаково.
Существует ситуация, которая встречается достаточно часто, когда имеется довольно большое количество пользователей (клиентов), пользующиеся разными ресурсами или услугами. И все их действия записываются в электронном виде. К примеру:
• добывается информация о том, кто и когда посещал конкретную страницу (счетчики посещений);
• добывается информация о том, какие поступали запросы от пользователей (поисковые машины);
• добывается информация о том, какие тематические разделы и насколько активно посещает пользователь (различные форумы), и так далее.
Соответственно, появляется проблема: как извлекать полезную
информацию из всех этих сырых данных. Все это нужно для выделения схожих ресурсов, персонализации контента, обнаружение предпочтений пользователей, прогнозирования и еще много чего.
Для проведения необходимого исследования использовалось приложение “Sazan SRR”, при помощи которого собирались все необходимые
данные, которые в дальнейшем и были использованы для получения требуемого результата.
Актуальность данной работы заключается в том, что информация, полученная в результате деления на кластеры весьма полезна и многогранна. Вот всего лишь несколько примеров, в которых могут быть применены качественные кластеры:
• выделение групп пользователей, составленных по определенным признакам, для проведения таргетированных рекламных кампаний;
• применение выделенных кластеров для персональных рекомендаций;
• простое понимание структуры данных за счет компактной визуализации;
• сопоставление URL товаров из различных интернет-магазинов для того, чтобы выявить сегменты, которые соответствуют одинаковым товарам.
Таким образом, кластеризация сайтов в соответствии с особенностями поведения пользователей и их потребностями имеет важное значение.
Целью данного исследования является демографический анализ пользователей, их предпочтений интернет-сайтов по категориям и анализ зависимостей между особенностями пользователей и сайтами, которые они посещали.
Достижение поставленной цели обусловило постановку и решение следующих задач:
• получить набор исходных данных для исследования;
• обработать набор исходных данных и привести его в необходимый для исследования вид;
• раскрыть сущность термина кластеризация;
• выбрать и применить наиболее подходящий алгоритм кластеризации на практике;
• визуализировать полученные результаты в виде графиков и таблиц;
• провести анализ данных, полученных в результате проведенного исследования;
• провести анализ зависимостей между особенностями пользователей и категориями посещенных сайтов.
Предметом исследования является кластеризация сайтов, посещенных пользователями мобильного приложения и анализ взаимосвязи между демографическими признаками пользователей и сайтами, которые они посетили.
Объектом исследования является приложение для мобильного телефона “Sazan SRR”.
Теоретической базой исследования являются труды отечественных и зарубежных ученых: К.В. Воронцов, С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин, Л. Слоан, Ж. Морган, П. Бернап, М. Вильямс, Е. Статтнер, М. Коллард, Х. Жао, В. Замфир.
Практической базой исследования являются фактические материалы, полученные в результате работы пользователей с мобильным приложением “Sazan SRR”.
Исследование включается в себя введение, 4 главы, заключение, список использованных источников.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате выполнения выпускной квалификационной работы был проведен статистический анализ по некоторым демографическим данным и данным веб-активности. Статистическое исследование проводилось с использованием кластеризации взвешенных демографических данных для испытаний зависимости между демографическими признаками и вебактивности пользователей. Кластерный анализ позволил выявить некоторые интересные статистические связи и особенности набора данных.
Также проведена проверка гипотезы о независимости признаков и категорий сайтов и латентный факторный анализ пользователей и их интересов.
В ходе выполнения выпускной квалификационной работы были выполнены следующие задачи:
1. Собраны и обработаны необходимые для исследования данные;
2. Выбран наиболее подходящий алгоритм кластеризации данных из существующих;
3. Выполнен кластерный анализ пользователей и сайтов с использованием полной связи иерархической кластеризации с евклидовым расстоянием;
4. Выполнена проверка независимости признаков и категорий сайтов;
5. Проведен латентный факторный анализ пользователей и их интересов.



1. Г анти В., Г ерке Й., Рамакришнан. Добыча данных в сверхбольших базах данных // Открытые системы, №9-10, 1999.
2. Котов А., Красильников Н. Кластеризация данных. 2016.
3. Князь Д. Анализ основных алгоритмов кластеризации многомерных данных. LAP Lambert Academic Publishing, 2014.
4. Филонова О.О., Вороной С.М. Алгоритм кластеризации поисковых профилей пользователей для системы персонализации сайта. 2013.
5. Bradley, Fayyad, U., Reina, C. Scaling Clustering Algorithms to Large Databases, Proc. 4th Int'l Conf. Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, Calif., 1998.
6. Fasulo D. «An Analysis Of Recent Work on Clustering Algorithms». Department of Computer Science & Engineering.» / D. Fasulo// University of Washington,1999.
7. Guha S., Rastogi R., Shim K. «CURE: An Efficient Clustering Algorithm for Large Databases». / S. Guha, R. Rastogi, K. Shim // SIGMOD '98 Proceedings of the 1998 ACM SIGMOD international conference on Management of data, 1998, P. 73-84.
8. Jain A., Murty M., Flynn P. - “Data Clustering: A Review”.
9. Kareev I., Salimov R, Lavrova D., Gaisin R. Statistical analysis of demographic and webactivity data of smartphone users acquired during special events in social networks.
10. Kogan J., Nicholas C.,Teboulle M. - “Clustering Large and High Dimensional data”.
11. Paul S. Bradley, Usama M. Fayyad, Cory A. Reina Scaling EM (Expectation-Maximization) Clustering to Large Databases, Microsoft Research,
1999.
12. R Core Team (2016). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R- pro ject.org/.
13. Rokach, Lior, and Oded Maimon (2005). Clustering methods. Data mining and knowledge discovery handbook. Springer US.
14. Sloan L., Morgan J., Burnap P., Williams M. (2015) Who Tweets? Deriving the Demographic Characteristics of Age, Occupation and Social Class from Twitter User Meta-Data. Preis T, ed. PLoS ONE., 10.
15. Stattner E., Collard M. (2017) Clustering of links and clustering of nodes: Fusion of knowledge in social networks. Studies in Computational Intelligence, 665, pp. 255-276.
16. Yang Y. CLOPE: A fast and Effective Clustering Algorithm for Transactional Data In Proc of SIGKDD’02 / Y. Yang, H. Guan, J. You // July 2326, - Edmonton, Alberta, Canada, 2002.
17. Zamfir V. (2012) The effects of unemployment on social issues and health matters. Review of Economic Studies and Research Virgil Madgearu 01, pp. 125-144.
18. Zhang T., Ramakrishnan, R., Livny, M. Birch: An Efficient Data Clustering Method for Large Databases, Proc. ACM SIGMOD Int’l Conf. Management of Data, ACM Press, New York, 1996.
19. Zhang Y., Xu G., Zhou X. (2005) A Latent Usage Approach for Clustering Web Transaction and Building User Profile. Advanced Data Mining and Applications: First International Conference, ADMA 2005, Wuhan, China, July 2224, 2005. Proceedings, pp 31-42.
20. Zhao H. and He C. (2009) Objective Cluster Analysis in Value-Based Customer Segmentation Method. 2009 Second International Workshop on Knowledge Discovery and Data Mining, Moscow, 2009, pp. 484-487.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ