Вычислительно-эффективные нейронные сети для задачи семантического поиска

Содержание

1. Введение 4
1.1. Объектный ответ в Яндексе 4
1.2. Задача семантического поиска 6
2. Обзор литературы 8
2.1. Метод TF-IDF 8
2.2. Метод Okapi BM25 9
2.3. Архитектура DSSM 9
2.4. Архитектура TwinBERT 10
2.5. Мотивация к новой модели 11
3. Данные 13
3.1. Входные данные 13
3.2. Разметка данных 14
3.3. Конструирование целевой переменной 15
4. Приемочные метрики 17
5. Обучение моделей разных архитектур 18
5.1. DSSM 18
5.2. BERT 18
5.3. DSSM дистиллированная из BERT 19
5.4. TwinBERT 20
5.5. Дистиллирование TwinBERT эмбеддингов 21
6. Результаты 22
7. Вывод 24
Список литературы 25

Введение

В поиск Яндекса приходит множество разнородных запросов. Кроме задачи «найти конкретный сайт» пользователи спрашивают про погоду, спор-тивные матчи, места, людей, товары, события, животных и многое другое.
Ссылки на сайты, которые отображаются на главной странице, назы¬ваются органической выдачей. В то время как блоки, помогающие решить пользователю более специфичные задачи (погода, спортивные матчи, поиск билетов и тому подобное), называются тематическими блоками или «колдун- щиками».
Объектный ответ — это колдунщик, который помогает решить ин- фосценарный запрос пользователя. Инфосценарный запрос - это запрос про какой-то объект, событие, животное и тому подобное, про то что можно вы-делить в какой-то объект и дать краткую сводку о нем.
Объектный ответ собирается автоматически на основании пользова-тельских запросов, а также различных источников информации: Википедия, Викимедиа, Кинопоиск, и другие. Работа объектного ответа состоит из двух этапов:
• Сборка объектной базы - агрегирование информации об одном и том же объекте в один документ (также именуемый карточкой).
• Рантайм (контур срабатываний) - выбор карточки объектного ответа из базы для конкретного пользовательского запроса.
Процесс сборки базы - оффлайн процесс, который занимает длительное время. В результате построения базы собираются сотни миллионов докумен¬тов. Контур срабатываний объектного ответа имеет ограничение на время исполнения в 130мс, что накладывает ограничение на методы, используемые для поиска документов в базе.
Одной из компонент контура срабатываний является полнотекстовый поиск на базе инвертированного индекса, с последующей фильтрацией документов. Для фильтрации документов используются формулы catboost.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

Предложенная схема обучения, а также архитектура модели машинного обучения для задачи семантического поиска позволяет в короткие сроки, без внедрения новых архитектур и написания дополнительного кода для их интеграции, получить преимущество относительно классической DSSM архитектуры.
В работе также проанализировано влияние качества входных данных для обучения моделей. Было выявлено, что тексты на разных языках, а также балансировка данных по значению целевой вещественной переменной оказывают положительное влияение на качество работы модели.
Хотя в данной работе и не был рассмотрен подход, при котором DSSM эмбеддинги для запросной части, и TwinBERT эмбеддинги для документной части обучаются совместно (соединяясь архитектурно), экспериментам над такой архитектурой уже положено начало.
Одна из версий моделей (DSSM, дистиллированная из оценок BERT модели) уже интегрирована в контур срабатываний объектного ответа. Это принесло рост релевантных показов объектного ответа на выдаче Яндекса в размере +0.69% от суточных показов. Это статистически значимое изменение, с p-value = 3.12e — 9. Лучшая модель DSSM эмбеддингов, которые дистиллированы из TwinBERT эмбеддингов, на данный момент проходит оф-флайн тестирование.

Литература

[1] Po-Sen Huang, Xiaodong He, Jianfeng Gao, li Deng, Alex Acero, Larry Heck. Learning deep structured semantic models for web search using clickthrough data. DOI: 10.1145/2505515.2505665
[2] Yelong Shen, Xiaodong He, Jianfeng Gao, Li Deng, Grxegoire Mesnil. Learning semantic representations using convolutional neural networks for web search. DOI: 10.1145/2567948.2577348. URL:https://doi.org/10.1145/2567948.2577348
[3] Wenhao Lu, Jian Jiao, Ruofei Zhang. TwinBERT: Distilling Knowledge to Twin-Structured Compressed BERT Models for Large-Scale Retrieval. URL: https://doi.org/10.1145/3340531.3412747
[4] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019. arXiv:1810.04805 [cs.CL]
[5] Tomas Mikolov, Kai Chen, G.s Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space, Proceedings of Workshop at ICLR, 2013.
[6] CatBoost: gradient boosting on decision trees. URL:https://arxiv.org/abs/1706.09516 (дата обр. 20.05.2024)
[7] Искусственный интеллект в поиске. Как Яндекс научился применять нейронные сети, чтобы искать по смыслу, а не по словам. URL: https://habr.com/ru/companies/yandex/articles/314222/ (дата обр. 20.05.2024)
[8] Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre-Emmanuel Mazare, Maria Lomeli, Lucas Hosseini, Herve Jegou. The Faiss library. URL:https://arxiv.org/abs/2401.08281 (дата обр. 20.05.2024)
[9] Feature importance - Model analysis I catboost. URL:https://catboost.ai/en/docs/concepts/fstr (дата обр. 20.05.2024)

Скриншоты

Пример Объектного Ответа по запросу "Роспись черно золотая"

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

Информационная технология распознавания жестов для человеко-машинного взаимодействия на базе сверточных нейронных сетей
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2019
Глубокие нейронные сети для сегментации изображений
Рефераты, нейронные сети . Язык работы: Русский. Цена: 2900 р. Год сдачи: 2022
Генерация медицинского заключения для рентгеновских снимков грудной клетки при помощи нейронных сетей
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 5850 р. Год сдачи: 2024
Восстановление полных форм числительных и сокращений для задач синтеза русского текста
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2023
ГЕНЕРАЦИЯ НОВОСТНЫХ ЗАГОЛОВКОВ ПРИ ПОМОЩИ DEEP SEQ2SEQ МОДЕЛИ
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 5500 р. Год сдачи: 2019
АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ
Диссертация , информационные системы. Язык работы: Русский. Цена: 5700 р. Год сдачи: 2003
Анализ тональности текстов с использованием нейросетевых моделей
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4220 р. Год сдачи: 2016
Анализ тональности текстов с использованием нейросетевых моделей
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4780 р. Год сдачи: 2016
Теория анализа и синтеза информационно-аналитических систем оптимальной отработки шахтных полей и месторождений
Диссертация , системный анализ использования ресурсов предприятия. Язык работы: Русский. Цена: 500 р. Год сдачи: 2002

Вычислительно-эффективные нейронные сети для задачи семантического поиска

Тип работы

Магистерская диссертация

Предмет

прикладная информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

48

Подобные работы

Логин
Пароль


Тип работы:	Предмет:	Язык работы: