ВВЕДЕНИЕ 3
1. РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ 5
1.1. Постановка задачи 5
1.2. Методы рекомендательных систем 5
1.3 Кластерный анализ 8
2. ПЕРЕЧЕНЬ ИСПОЛЬЗУЕМЫХ ПРОГРАММ И БИБЛИОТЕК ДЛЯ РЕАЛИЗАЦИИ
ПРОЕКТА 9
3. РЕШЕНИЕ ЗАДАЧ 11
3.1 Социальная сеть 11
3.2 Обработка данных 11
3.3 TF-IDF 12
3.4 Сингулярное разложение 13
3.5 Латентный Семантический Анализ 15
3.6 Применение коллаборативной фильтрации 15
4. ПРОГРАММНАЯ СИСТЕМА И ЭКСПЕРИМЕНТЫ 17
4.1. Программная система 17
4.2 Анализ работы программы 17
4.3. Результаты 19
ЗАКЛЮЧЕНИЕ 21
СПИСОК ЛИТЕРАТУРЫ 22
ПРИЛОЖЕНИЕ 23
Бурное развитие вычислительных систем и информационных технологий в различных сферах жизни привело к резкому увеличению потоков данных и необходимости их эффективной обработки.
Общеизвестно, что не вся информация одинаково полезна. Наличие специального фильтра, который бы отбирал только нужную информацию, значительно упростило бы работу в интернете. В 1989 году на семинаре Григориея Пятецкого-Шапиро было введено понятие Data Mining (добыча данных) или иначе - Интеллектуальный анализ данных. Data Mining решает много задач, одни из них - это кластеризация и прогнозирование.
Кластеризация - разделение множества входных данных на кластеры (группы) по каким-то общим чертам ("по похожести").
Прогнозирование - определение будущих состояний объектов на основании предыдущих данных. Сбором (парсингом) данных из веб-ресурсов занимается Web Mining.
Для организации социальных взаимоотношений в интернете придуманы социальные сети. Выявлением полезных знаний из социальных сетей занимается Social Networks Analysis and Mining(Анализ социальных сетей ) -
Социолог Градосельская Г. В. предложила следующее определение:
“Социальные сети — это особая реальность и особая философия анализа данных, которая позволяет интегрировать различные математические подходы — статистические, системные, имитационные — с современной социальной теорией.”
Social Mining - применение методов и алгоритмов Data Mining для поиска и обнаружения зависимостей и знаний в социальных сетях.
В ходе анализа современных социальных сетей было замечено наличие рекомендаций добавить в друзья человека, с которым у пользователя есть общий друг. При этом интересы пользователей не учитываются.
В данной работе предложен вариант анализа стены пользователя социальной сети “Вконтакте” для определения его интересов. Полученные данные можно сравнить с интересами других людей или постами групп для рекомендации пользователю.
Выбор социальной сети “Вконтакте” объясняется ее популярностью. По данным LiveInternet.ru, за апрель - май 2016 года в социальной сети “Вконтакте” зарегистрировано около 350 млн. пользователей, около 80 тыс. заходят на сайт каждый день. Это самая популярная социальная сеть в России.
Целью данной работы является создание системы для упрощения поиска друзей или групп, которая позволит рекомендовать людей по принципу “сходности интересов”.
В первом разделе работы описана постановка задачи.
Во втором разделе описывается перечень используемых программ и библиотек.
В третьем разделе обзор - существующих решений.
В четвертом разделе приводится реализованная программная система, а также проведенные эксперименты.
В данной работе, для исследования проблем рекомендаций дружбы в социальной сети, было выдвинуто два основных предположения:
1. записи на стене пользователя характеризуют его интересы;
2. людям интересны пользователи, с которым у них есть общие интересы.
Основываясь на этих предположениях был предложен подход, который заключается в следующем:
• извлечение интересов пользователей из записей на стене;
• поиск близких по интересам друзей пользователя для получения кластера;
• сравнение кластера с людьми, которых нет в списке друзей пользователя;
• рекомендация пользователю людей, которые похожи на кластер.
При этом, в расчет не брались пользователи, доступ к страницам которых ограничен, также пропускались пользователи, у которых нет записей, либо информация, полученная с записей малоинформативна.
Задача рекомендательной системы - оценить интерес пользователя к объекту. Опрос пользователей - наиболее достоверный способ оценки качества работы.
В будущем для улучшения результатов предсказаний планируется добавление нового функционала, который бы позволял анализировать изображения. Также дополнить возможностью рекомендации групп и сообществ.
1. Moreels P., Perona P. Evaluation of features detectors and descriptors based on 3d objects //International Journal of Computer Vision. - 2007. - Т. 73. - №. 3. - С. 263-284.
2. Juila Vogel and Bernt Schiele, “A semantic typicality measure for natural scene categorization,” Pattern Recognition Symposium DAGM, 2004.”
3. Tversky, B.,Hemenway, K.: Categories of environmental scenes. Cognitive Psychology 15 (1983).
4. Rogowitz, B., Frese, T., Smith, J., Bouman, C., Kalin, E.: Perceptual image similarity experiments. In: SPIE Conf. Human Vision and Electronic Imaging, San Jose, California (1998).
5. Gorkani M. M., Picard R. W. Texture orientation for sorting photos" at a glance" //Pattern Recognition, 1994. Vol. 1-Conference A: Computer Vision; Image Processing., Proceedings of the 12th IAPR International Conference on. - IEEE, 1994. - Т. 1. - С. 459-464.
6. Bosch A., Zisserman A., Muoz X. Scene classification using a hybrid generative/discriminative approach //Pattern Analysis and Machine Intelligence, IEEE Transactions on. - 2008. - Т. 30. - №. 4. - С. 712-727.
7. Oliva A., Torralba A. Modeling the shape of the scene: A holistic representation of the spatial envelope //International journal of computer vision. - 2001. - Т. 42. - №. 3. - С. 145-175.
8. Mehrotra R., Namuduri K. R., Ranganathan N. Gabor filter-based edge detection //Pattern Recognition. - 1992. - Т. 25. - №. 12. - С. 1479-1494.
9. Воронцов К. В. Лекции по методу опорных векторов //ВЦ РАН, М.: URL: http://www. ccas. ru/voron/download/SVM. pdf (дата обращения: 03.03. 12). - 2007.