Тема: Распознавание сущностей на графе знаний об организациях
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
II О графе знаний об организациях 5
III Обогащение сущностей атрибутами 8
IV ML-эволюция 13
V Графовые эмбеддинги 20
VI Заключение 25
Список литературы 26
📖 Введение
Мы решили не отставать от передовых концепций и собрать всю доступную нам информацию о бизнесах в граф знаний. Однако, оказалось, что для российских бизнесов также верна теория о шести рукопожатиях - даже после применения различных раскластеризующих графовых алгоритмов, мы получаем компоненты связности размера 30 тысяч вершин, с которыми мы не можем работать как с отдельными сущностями - бизнесами или клиентами. Таким образом перед нами встает задача распознавания сущностей, целью которой является установление связей между бизнесом и его характеристиками, полученными из разных источников, чтобы получить единое представление об организации.
✅ Заключение
В первой задаче мы разработали подход к обогащению сущностей атрибутами и связыванию информации о бизнесах из разных источников между собой. Наши компоненты могут насчитывать до 30 тыс. вершин и содержат в себе множество бизнес-сущностей, а связи, образованные путями длины больше 8, являются нерелевантными в 97% случаев, поэтому мы ограничиваем окрестность целевой вершины N шагами. Чем меньше N, тем точнее атрибуты, но меньше их количество. Нами предложен подход, при котором компоненты связности графа обрабатываются независимо на разных узлах кластера, а при большом числе интересующих нас для обогащения вершин, они разбивается на части для параллельной обработки. Разработана библиотека для широкого круга пользователей.
Во второй задаче мы решали проблему привязывания новых клиентов к контрагентам с целью автоматизации рутинной работы менеджеров и повышения эффективности бизнес-процессов. Для этого нам было необходимо научиться автоматически подтверждать или отвергать гипотезы о связи этих сущностей, сформированные методом, реализованным в ходе решения первой задачи. Мы поставили задачу бинарной классификации, процесс формирования признаков и обучающего датасета, а затем провели сравнительный анализ различных моделей бинарной классификации и оценили качество выбранной модели.
В третьей задаче перед нами стояла проблема выделения нетривиальных под-кластеров внутри компонент связности графа. Для этого мы использовали метод вложения графов в многомерное векторное пространство, построив эмбеддинги. Затем мы провели кластеризацию с помощью алгоритма DBSCAN и научились выявлять сложные сообщества организаций в графе знаний. Все решения были протестированы на реальных данных и показали высокую эффективность. Наш подход может быть использован для решения различных задач в области обработки графов знаний и анализа бизнес-процессов. Он может быть расширен и улучшен с помощью использования более продвинутых методов машинного обучения и анализа данных. Кроме того, наш подход к обработке графа знаний может быть применен и в других областях, где есть необходимость в обработке больших объемов данных и выявлении скрытых закономерностей.





