Тип работы:
Предмет:
Язык работы:


Распознавание сущностей на графе знаний об организациях

Работа №126742

Тип работы

Бакалаврская работа

Предмет

математические методы в экономике

Объем работы26
Год сдачи2023
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
45
Не подходит работа?

Узнай цену на написание


I Введение 4
II О графе знаний об организациях 5
III Обогащение сущностей атрибутами 8
IV ML-эволюция 13
V Графовые эмбеддинги 20
VI Заключение 25
Список литературы 26

Яндекс - большая компания, состоящая из множества сервисов. Каждый из этих сервисов имеет своих клиентов, про которых каждый отдельно взятый сервис собирает необходимую ему информацию. К сожалению, эта информация может быть разрозненной и не полной, что затрудняет клиентскую аналитику. Для решения этой проблемы компании все чаще начинают придерживаться концепции Client360, которая предполагает создание полной сводной картины клиента на основе данных из разных источников, чтобы лучше понимать его потребности и поведение и предоставлять наиболее эффективные услуги. Суть концепции заключается в том, что компания составляет единую базу знаний о клиенте, объединяя всю доступную ей информацию и тем самым получает всесторонний взгляд на клиента. На основе анализа полученных данных компания может предоставлять наиболее персонализированные услуги и качественную поддержку клиентов и получает уникальную возможность улучшить свою бизнес-стратегию и принимать более обоснованные решения. Например, компания может использовать данные о клиенте для определе­ния наиболее эффективных каналов продаж, привлечения клиентов, задач антифрода и прочих.
Мы решили не отставать от передовых концепций и собрать всю доступную нам информацию о бизнесах в граф знаний. Однако, оказалось, что для рос­сийских бизнесов также верна теория о шести рукопожатиях - даже после применения различных раскластеризующих графовых алгоритмов, мы по­лучаем компоненты связности размера 30 тысяч вершин, с которыми мы не можем работать как с отдельными сущностями - бизнесами или клиентами. Таким образом перед нами встает задача распознавания сущностей, целью ко­торой является установление связей между бизнесом и его характеристиками, полученными из разных источников, чтобы получить единое представление об организации.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе мы решали несколько задач, связанных с обработкой боль­шого графа знаний об организациях.
В первой задаче мы разработали подход к обогащению сущностей атри­бутами и связыванию информации о бизнесах из разных источников между собой. Наши компоненты могут насчитывать до 30 тыс. вершин и содержат в себе множество бизнес-сущностей, а связи, образованные путями длины больше 8, являются нерелевантными в 97% случаев, поэтому мы ограничиваем окрестность целевой вершины N шагами. Чем меньше N, тем точнее атрибуты, но меньше их количество. Нами предложен подход, при котором компоненты связности графа обрабатываются независимо на разных узлах кластера, а при большом числе интересующих нас для обогащения вершин, они разбивается на части для параллельной обработки. Разработана библиотека для широкого круга пользователей.
Во второй задаче мы решали проблему привязывания новых клиентов к контрагентам с целью автоматизации рутинной работы менеджеров и по­вышения эффективности бизнес-процессов. Для этого нам было необходимо научиться автоматически подтверждать или отвергать гипотезы о связи этих сущностей, сформированные методом, реализованным в ходе решения первой задачи. Мы поставили задачу бинарной классификации, процесс формирова­ния признаков и обучающего датасета, а затем провели сравнительный анализ различных моделей бинарной классификации и оценили качество выбранной модели.
В третьей задаче перед нами стояла проблема выделения нетривиальных под-кластеров внутри компонент связности графа. Для этого мы использовали метод вложения графов в многомерное векторное пространство, построив эмбеддинги. Затем мы провели кластеризацию с помощью алгоритма DBSCAN и научились выявлять сложные сообщества организаций в графе знаний. Все решения были протестированы на реальных данных и показали высокую эффективность. Наш подход может быть использован для решения различных задач в области обработки графов знаний и анализа бизнес-процессов. Он может быть расширен и улучшен с помощью использования более продвинутых методов машинного обучения и анализа данных. Кроме того, наш подход к обработке графа знаний может быть применен и в других областях, где есть необходимость в обработке больших объемов данных и выявлении скрытых закономерностей.


[1] Raimondas Kiveris, Silvio Lattanzi, Vahab Mirrokni, Vibhor Rastogi, and Sergei Vassilvitskii. Connected components in mapreduce and beyond. In Proceedings of the ACM Symposium on Cloud Computing, SOCC ’14, page 1-13, New York, NY, USA, 2014. Association for Computing Machinery.
[2] Jeffrey Dean and Sanjay Ghemawat. Mapreduce: Simplified data processing on large clusters. In OSDI’04: Sixth Symposium on Operating System Design and Implementation, pages 137-150, San Francisco, CA, 2004.
[3] Aditya Grover and Jure Leskovec. node2vec: Scalable feature learning for networks, 2016.
[4] Laurens van der Maaten and Geoffrey Hinton. Viualizing data using t-sne. Journal of Machine Learning Research, 9:2579-2605, 11 2008.
[5] Dingsheng Deng. Dbscan clustering algorithm based on density. In 2020 7th International Forum on Electrical Engineering and Automation (IFEEA), pages 949-953, 2020.
[6] Mengjia Xu. Understanding graph embedding methods and their applications. CoRR, abs/2012.08019, 2020.
[7] Lizi Liao, Xiangnan He, Hanwang Zhang, and Tat-Seng Chua. Attributed social network embedding. CoRR, abs/1705.04969, 2017.
[8] Lin Guo and Qun Dai. Graph clustering via variational graph embedding. Pattern Recognition, 122:108334, 2022.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ