Тип работы:
Предмет:
Язык работы:


Вычислительно-эффективные нейронные сети для задачи семантического поиска

Работа №144057

Тип работы

Магистерская диссертация

Предмет

прикладная информатика

Объем работы26
Год сдачи2024
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
33
Не подходит работа?

Узнай цену на написание


1. Введение 4
1.1. Объектный ответ в Яндексе 4
1.2. Задача семантического поиска 6
2. Обзор литературы 8
2.1. Метод TF-IDF 8
2.2. Метод Okapi BM25 9
2.3. Архитектура DSSM 9
2.4. Архитектура TwinBERT 10
2.5. Мотивация к новой модели 11
3. Данные 13
3.1. Входные данные 13
3.2. Разметка данных 14
3.3. Конструирование целевой переменной 15
4. Приемочные метрики 17
5. Обучение моделей разных архитектур 18
5.1. DSSM 18
5.2. BERT 18
5.3. DSSM дистиллированная из BERT 19
5.4. TwinBERT 20
5.5. Дистиллирование TwinBERT эмбеддингов 21
6. Результаты 22
7. Вывод 24
Список литературы 25

В поиск Яндекса приходит множество разнородных запросов. Кроме задачи «найти конкретный сайт» пользователи спрашивают про погоду, спор-тивные матчи, места, людей, товары, события, животных и многое другое.
Ссылки на сайты, которые отображаются на главной странице, назы¬ваются органической выдачей. В то время как блоки, помогающие решить пользователю более специфичные задачи (погода, спортивные матчи, поиск билетов и тому подобное), называются тематическими блоками или «колдун- щиками».
Объектный ответ — это колдунщик, который помогает решить ин- фосценарный запрос пользователя. Инфосценарный запрос - это запрос про какой-то объект, событие, животное и тому подобное, про то что можно вы-делить в какой-то объект и дать краткую сводку о нем.
Объектный ответ собирается автоматически на основании пользова-тельских запросов, а также различных источников информации: Википедия, Викимедиа, Кинопоиск, и другие. Работа объектного ответа состоит из двух этапов:
• Сборка объектной базы - агрегирование информации об одном и том же объекте в один документ (также именуемый карточкой).
• Рантайм (контур срабатываний) - выбор карточки объектного ответа из базы для конкретного пользовательского запроса.
Процесс сборки базы - оффлайн процесс, который занимает длительное время. В результате построения базы собираются сотни миллионов докумен¬тов. Контур срабатываний объектного ответа имеет ограничение на время исполнения в 130мс, что накладывает ограничение на методы, используемые для поиска документов в базе.
Одной из компонент контура срабатываний является полнотекстовый поиск на базе инвертированного индекса, с последующей фильтрацией документов. Для фильтрации документов используются формулы catboost.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Предложенная схема обучения, а также архитектура модели машинного обучения для задачи семантического поиска позволяет в короткие сроки, без внедрения новых архитектур и написания дополнительного кода для их интеграции, получить преимущество относительно классической DSSM архитектуры.
В работе также проанализировано влияние качества входных данных для обучения моделей. Было выявлено, что тексты на разных языках, а также балансировка данных по значению целевой вещественной переменной оказывают положительное влияение на качество работы модели.
Хотя в данной работе и не был рассмотрен подход, при котором DSSM эмбеддинги для запросной части, и TwinBERT эмбеддинги для документной части обучаются совместно (соединяясь архитектурно), экспериментам над такой архитектурой уже положено начало.
Одна из версий моделей (DSSM, дистиллированная из оценок BERT модели) уже интегрирована в контур срабатываний объектного ответа. Это принесло рост релевантных показов объектного ответа на выдаче Яндекса в размере +0.69% от суточных показов. Это статистически значимое изменение, с p-value = 3.12e — 9. Лучшая модель DSSM эмбеддингов, которые дистиллированы из TwinBERT эмбеддингов, на данный момент проходит оф-флайн тестирование.


[1] Po-Sen Huang, Xiaodong He, Jianfeng Gao, li Deng, Alex Acero, Larry Heck. Learning deep structured semantic models for web search using clickthrough data. DOI: 10.1145/2505515.2505665
[2] Yelong Shen, Xiaodong He, Jianfeng Gao, Li Deng, Grxegoire Mesnil. Learning semantic representations using convolutional neural networks for web search. DOI: 10.1145/2567948.2577348. URL:https://doi.org/10.1145/2567948.2577348
[3] Wenhao Lu, Jian Jiao, Ruofei Zhang. TwinBERT: Distilling Knowledge to Twin-Structured Compressed BERT Models for Large-Scale Retrieval. URL: https://doi.org/10.1145/3340531.3412747
[4] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019. arXiv:1810.04805 [cs.CL]
[5] Tomas Mikolov, Kai Chen, G.s Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space, Proceedings of Workshop at ICLR, 2013.
[6] CatBoost: gradient boosting on decision trees. URL:https://arxiv.org/abs/1706.09516 (дата обр. 20.05.2024)
[7] Искусственный интеллект в поиске. Как Яндекс научился применять нейронные сети, чтобы искать по смыслу, а не по словам. URL: https://habr.com/ru/companies/yandex/articles/314222/ (дата обр. 20.05.2024)
[8] Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre-Emmanuel Mazare, Maria Lomeli, Lucas Hosseini, Herve Jegou. The Faiss library. URL:https://arxiv.org/abs/2401.08281 (дата обр. 20.05.2024)
[9] Feature importance - Model analysis I catboost. URL:https://catboost.ai/en/docs/concepts/fstr (дата обр. 20.05.2024)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ