Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Данные и их обработка 6
1.1. Граф 6
1.2. Вид данных 6
1.3. Обработка данных 7
1.4. Анализ и выбор метрики 7
Глава 2. Построение обучающего и тестового множества 10
2.1. Предпосчёт количества общих друзей 10
2.2. Обучающее и тестовое множество 11
Глава 3. Подбор гиперпараметров 13
3.1. Полный перебор 13
3.2. Случайный перебор 13
Глава 4. Методы машинного обучения 15
4.1. Метод к ближайших соседей 15
4.2. Метод опорных векторов 16
4.3. Случайный лес 17
4.4. Градиентный бустинг деревьев решений 18
Глава 5. Эксперименты 20
5.1. Базовые признаки 20
5.2. Логарифмирование 21
5.3. Масштабирование 22
5.4. Коэффициент Жаккара 23
5.5. Коэффициент Адамик-Адара 24
5.6. Персонализированный PageRank 26
5.7. Новые признаки 27
5.8. Оптимизация гиперпараметров 29
Выводы 30
Заключение 31
Список литературы
Социальные сети являются популярным способом взаимодействия между пользователями и группами пользователей. Анализ социальных сетей имеет широкое применение в ряде дисциплин и приложений. Из распространённых приложений можно отметить такие, как анализ поведения пользователя, бизнес-аналитика и даже правоохранительные мероприятия (например, выявление скрытых преступных организаций).
Интерес к этой области в последнее время растёт, так как за последние десять лет социальные сети стали неотъемлемой частью нашей жизни. Почти у каждого человека есть аккаунт хотя бы в одной, а часто и в трёх-четырёх социальных сетях. Компании всё чаще используют анализ социальных сетей, чтобы предсказать поведение пользователя или построить качественную рекомендательную систему.
Во всех вышеперечисленных приложениях анализа социальных сетей так или иначе фигурирует предсказание ссылок. В этой работе мы проведём обзор некоторых методов и попробуем разные подходы к решению задачи предсказания ссылок в социальном графе.
В работе были рассмотрены различные известные методы предсказания ссылок в графе наряду с несколькими популярными алгоритмами машинного обучения. Так же была определённым образом задействована информация о виде связей, что показало хороший результат на рассмотренных данных.
В дальнейшем планируется использовать другие методы, использующие информацию о структуре графа, а так же различные вероятностные модели. Кроме того, планируется рассмотреть некоторые другие наборы данных.