Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Социальные графы и их анализ 7
1.1. Обзор области 7
1.2. Определение социального графа 8
1.3. Характеристики социальных графов 8
1.4. Основные алгоритмы анализа графов 12
Глава 2. Граф соискатели — работодатели 14
2.1. Определение основных понятий 14
2.2. Разбор резюме и вакансий 17
2.3. Использование Word2Vec и Doc2Vec 18
Глава 3. Подготовка данных 23
3.1. Описание структуры данных 23
3.2. Работа с данными в Apache Spark 25
Глава 4. Реализация 26
4.1. Классификация документов и ключевых навыков 26
4.2. Анализ резюме 28
4.3. Анализ вакансии 30
4.4. Определение связей между соискателями и вакансиями 31
4.5. Построение графа 31
Выводы 34
Заключение 35
Дальнейшая работа 35
Список литературы
В связи с ростом популярности интернета, мобильных устройств, и т. д. наблюдается значительный рост объемов информация. Эта информация представлена в самом разном виде, как структурированная, так и без какой-либо определенной структуры. Хранение таких данных и последующий их анализ может привести к полезным, а иногда довольно неожиданным, результатам. Но для работы с таким количеством информации требуются новые технологии и методы, которые обозначаются термином Big Data.
В результате работы было разработано программное обеспечение для сбора данных о вакансиях и резюме. Полученные данные были обработаны, приведены к более удобной для дальнейшего анализа форме и сохранены в формате JSON. Затем были определены возможные подходы извлечения полезной информации из слабоструктурированных данных, проведено их сравнение и выбран наиболее подходящий для данной работы вариант. Был разработан алгоритм, основанный на векторном представлении слов, который позволяет анализировать обработанные данные и находить связи между сущностями. На основе найденных связей был построен граф, на котором был выполнен алгоритм по нахождению наиболее оптимального множества паросочетаний. Все эти алгоритмы рассматривались в контексте фреймворка для обработки Big Data — Apache Spark. Можно считать, что все поставленные задачи в результате работы выполнены.