В поиск Яндекса приходит множество разнородных запросов. Кроме задачи «найти конкретный сайт» пользователи спрашивают про погоду, спор-тивные матчи, места, людей, товары, события, животных и многое другое.
Ссылки на сайты, которые отображаются на главной странице, назы¬ваются органической выдачей. В то время как блоки, помогающие решить пользователю более специфичные задачи (погода, спортивные матчи, поиск билетов и тому подобное), называются тематическими блоками или «колдун- щиками».
Объектный ответ — это колдунщик, который помогает решить ин- фосценарный запрос пользователя. Инфосценарный запрос - это запрос про какой-то объект, событие, животное и тому подобное, про то что можно вы-делить в какой-то объект и дать краткую сводку о нем.
Объектный ответ собирается автоматически на основании пользова-тельских запросов, а также различных источников информации: Википедия, Викимедиа, Кинопоиск, и другие. Работа объектного ответа состоит из двух этапов:
• Сборка объектной базы - агрегирование информации об одном и том же объекте в один документ (также именуемый карточкой).
• Рантайм (контур срабатываний) - выбор карточки объектного ответа из базы для конкретного пользовательского запроса.
Процесс сборки базы - оффлайн процесс, который занимает длительное время. В результате построения базы собираются сотни миллионов докумен¬тов. Контур срабатываний объектного ответа имеет ограничение на время исполнения в 130мс, что накладывает ограничение на методы, используемые для поиска документов в базе.
Одной из компонент контура срабатываний является полнотекстовый поиск на базе инвертированного индекса, с последующей фильтрацией документов. Для фильтрации документов используются формулы catboost.
Предложенная схема обучения, а также архитектура модели машинного обучения для задачи семантического поиска позволяет в короткие сроки, без внедрения новых архитектур и написания дополнительного кода для их интеграции, получить преимущество относительно классической DSSM архитектуры.
В работе также проанализировано влияние качества входных данных для обучения моделей. Было выявлено, что тексты на разных языках, а также балансировка данных по значению целевой вещественной переменной оказывают положительное влияение на качество работы модели.
Хотя в данной работе и не был рассмотрен подход, при котором DSSM эмбеддинги для запросной части, и TwinBERT эмбеддинги для документной части обучаются совместно (соединяясь архитектурно), экспериментам над такой архитектурой уже положено начало.
Одна из версий моделей (DSSM, дистиллированная из оценок BERT модели) уже интегрирована в контур срабатываний объектного ответа. Это принесло рост релевантных показов объектного ответа на выдаче Яндекса в размере +0.69% от суточных показов. Это статистически значимое изменение, с p-value = 3.12e — 9. Лучшая модель DSSM эмбеддингов, которые дистиллированы из TwinBERT эмбеддингов, на данный момент проходит оф-флайн тестирование.
[1] Po-Sen Huang, Xiaodong He, Jianfeng Gao, li Deng, Alex Acero, Larry Heck. Learning deep structured semantic models for web search using clickthrough data. DOI: 10.1145/2505515.2505665
[2] Yelong Shen, Xiaodong He, Jianfeng Gao, Li Deng, Grxegoire Mesnil. Learning semantic representations using convolutional neural networks for web search. DOI: 10.1145/2567948.2577348. URL:https://doi.org/10.1145/2567948.2577348
[3] Wenhao Lu, Jian Jiao, Ruofei Zhang. TwinBERT: Distilling Knowledge to Twin-Structured Compressed BERT Models for Large-Scale Retrieval. URL: https://doi.org/10.1145/3340531.3412747
[4] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019. arXiv:1810.04805 [cs.CL]
[5] Tomas Mikolov, Kai Chen, G.s Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space, Proceedings of Workshop at ICLR, 2013.
[6] CatBoost: gradient boosting on decision trees. URL:https://arxiv.org/abs/1706.09516 (дата обр. 20.05.2024)
[7] Искусственный интеллект в поиске. Как Яндекс научился применять нейронные сети, чтобы искать по смыслу, а не по словам. URL: https://habr.com/ru/companies/yandex/articles/314222/ (дата обр. 20.05.2024)
[8] Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre-Emmanuel Mazare, Maria Lomeli, Lucas Hosseini, Herve Jegou. The Faiss library. URL:https://arxiv.org/abs/2401.08281 (дата обр. 20.05.2024)
[9] Feature importance - Model analysis I catboost. URL:https://catboost.ai/en/docs/concepts/fstr (дата обр. 20.05.2024)