📄Работа №215585

Тема: Рекомендательная система подбора изображений к презентациям

📝
Тип работы Дипломные работы, ВКР
📚
Предмет информатика
📄
Объем: 54 листов
📅
Год: 2022
👁️
Просмотров: 3
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

АННОТАЦИЯ 2
ЗАДАНИЕ 2
ВВЕДЕНИЕ 7
1 АНАЛИЗ СИСТЕМ ПОДБОРА ИЗОБРАЖЕНИЙ 9
1.1 Подбор изображений как задача семантического анализа текста 9
1.2 Методы получения эмбеддингов слов 10
1.2.1 Метод кодирования one-hot encoding 10
1.2.2 Метод кодирования Word2Vec 12
1.2.3 Метод кодирования fastText 15
1.3 Методы получения эмбеддингов предложений 16
1.3.1 Рекуррентные нейронные сети 16
1.3.2 LSTM сети 18
1.3.3 Механизм внимания 21
1.3.4 CLIP Ошибка! Закладка не определена.
1.4 Сервисы для подбора изображений к слайдам презентации 23
1.4.1 Google Images 23
1.4.2 Конструктор PowerPoint 24
1.5 Выводы по разделу 25
2 ЗАДАЧА СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА 27
2.1 Постановка задачи и набор данных 27
2.2 Архитектура нейронной сети 28
2.3 Сверточные нейронные сети 30
2.4 Трансформеры 32
2.5 Мера близости и функция потерь 36
2.6 Обучение сети 38
2.7 Метод оптимизации функции потерь Adam 41
2.8 Функции активации 43
2.8.1 Функция активации ReLU 44
2.8.2 Функция активации Softmax
2.9 Выводы по разделу 47
3 РЕАЛИЗАЦИЯ СИСТЕМЫ И ПРОВЕРКА НА ТЕСТОВЫХ ДАННЫХ ... 48 ЗАКЛЮЧЕНИЕ 56
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 57

📖 Введение

Для человека потребность в получении информации является постоянной. Например, в доисторическом периоде знания о ядовитых растениях, опасных зверях являлись залогом выживания для отдельного человека. Без изобретения способов передачи и обмена информацией человечество было бы обречено на вымирание. С годами потребность в информации не только не упала, но и многократно приумножилась. В современном мире объем информационных ресурсов растет огромными темпами. Рост объема информации обусловлен усложнением всех сфер жизнедеятельности современного общества, определяющим фактором является развитие технологий и научный прогресс. Однако важно не только количество поданной информации, огромное значение имеет так же форма её представления.
Информация бесполезна, если человек не способен её усвоить. Для этой задачи используются разного рода иллюстрации. Согласно исследованиям, услышав новую информацию, люди смогут вспомнить только 10% спустя 3 дня, однако, вместе с релевантным изображением люди запоминают на 55% больше информации [16]. При этом, иллюстрированная информация, отправляется в долговременную память, в то время как текстовая - в кратковременную [20], что говорит о том, насколько важно визуальное оформление для запоминания материала. Также, согласно исследованию [17], контент в интернете, сопровождающийся изображениями, имеет на 94% больше просмотров, чем аналогичный контент без них, что говорит о важности изображений не только в образовательных, но и в маркетинговых целях.
В то же время, согласно исследованиям, дизайн и визуальный контент является самой тяжелой задачей для 23.7% маркетологов 49% маркетологов оценивают визуальную часть как крайне важную для решения своих задач, 22% как важную, и 19% полностью полагаются именно на визуальную часть презентаций [18]. Именно поэтому создание сервиса подбора изображений к
презентациям на основе их смыслового содержания является современной и актуальной задачей.
На текущей момент существует множество подходов к реализации рекомендательных систем, большая часть из которых основывается на запоминании предпочтений пользователя и предложении похожего контента. Однако, в данном случае они неприменимы, так как тематика конкретных презентаций не зависит от предыдущих запросов пользователя. Именно поэтому для решения данной задачи были выбраны нейросетевые алгоритмы обработки естественного языка, способные улавливать смысловое значение пользовательского текста.
Целью данной работы является разработка системы, позволяющей подбирать изображения из базы данных, подходящих по смыслу к тексту слайдов. Для достижения данной цели необходимо решить следующие задачи:
1) исследование существующих методов семантического анализа текста;
2) составление математической модели программы для подбора изображений к тексту слайдов;
3) выбор метрик для оценки близости текста и изображения;
4) разработка программного модуля, осуществляющего подбор изображений к тексту слайдов;
5) оценка качества работы системы.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Цель данной работы заключалась в разработке системы, позволяющей по тексту слайдов презентаций подбирать подходящие к ним по смыслу изображения из базы данных. В ходе работы данная задача была сформулирована как задача семантического анализа текста, рассмотрены разнообразные нейросетевые методы, решающие данную проблему. Был выбран подход, связанный с использованием нейронной сети CLIP.
Данная сеть была подробно рассмотрена, изучена её мультимодальная архитектура. Был проведен обзор энкодера изображений, оказывающего существенное влияние на качество обучения нейросети, и энкодера текста, являющегося самой важной частью системы подбора изображений. В качестве алгоритма обучения нейронных сетей выбран метод обратного распространения ошибки с применением оптимизации функции потерь методом Adam.
Приведены метрики качества, позволяющие оценить качество работы системы рекомендации как единого целого и разобрана мера близости, которая позволяет численно оценить, насколько схожи по семантическому содержанию два вектора в общем пространстве.
Разработанная система была реализована на языке программирования Python 3.7 с применением библиотек PyTorch, NumPy и scikit-learn, а также среды разработки Jupyter Notebook.
Итак, цель достигнута, а поставленные задачи - полностью решены. Разработанная система была успешно внедрена и используется в проекте «Wonderslide», на данный момент разрабатываемый в компании «ООО Цифровая Собственность». Представленное в данной работе решение может использоваться при создании других рекомендательных и поисковых систем.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1 Как сжать модель fastText в 100 раз. - Дата обновления: 09.01.2019. URL: https://habr.com/ru/post/489474/ (дата обращения: 22.12.2021).
2 Abien Fred Agarap. Deep Learning using Rectified Linear Units (ReLU) / Abien Fred Agarap // arXiv. - 2018. - URL: https://arxiv.org/pdf/1803.08375.pdf (дата обращения: 01.02.2022).
3 Alec Radford. Learning Transferable Visual Models From Natural Language Supervision / Alec Radford, Jong Wook Kim, Chris Hallacy // arXiv. - 2021. - URL: https://arxiv.org/pdf/2103.00020.pdf (дата обращения: 01.02.2022)
4 Anh Nguyen. An Analysis of State-of-the-art Activation Functions For Supervised Deep Neural Network / Anh Nguyen, Khoa Pham, Dat Ngo, Thanh Ngo, Lam Pham // arXiv. - 2021. - URL: https://arxiv.org/pdf/2104.02523.pdf (дата обращения: 01.02.2022).
5 Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar // arXiv. - 2017. - URL: https://arxiv.org/pdf/ 1706.03 762.pdf (дата обращения: 01.02.2022).
6 Custom Search JSON API - Дата обновления: 03.04.2019. URL: https://developers.google.com/custom-search/v 1/ overview (дата обращения: 22.03.2022).
7 Dan Hendrycks. Gaussian Error Linear Units (GELUs) / Dan Hendrycks, Kevin Gimpel. // arXiv. - 2016. - URL: https://arxiv.org/pdf/1606.08415.pdf (дата обращения: 01.02.2022).
8 Fenglei, Fan. General Backpropagation Algorithm for Training Second- order Neural Networks / Fenglei Fan, Wenxiang Cong, Ge Wang // arXiv. - 2019. - URL: https://arxiv.org/pdf/1708.06243.pdf (дата обращения: 01.02.2022).
9 Google Image Search: Over 1 Billion Pageviews A Day - Дата обновления: 03.04.2019. URL: https://techcrunch.com/2010/07/20/google-image- search/ (дата обращения: 22.03.2022).
10 Introduction to Natural Language Processing for Text. – Дата обновления: 09.01.2019. URL: https://towardsdatascience.com/introduction-to- natural-language-processing-for-text-df845750fb63 (дата обращения: 22.12.2021).
11 Jimmy Ba. Adam: A Method for Stochastic Optimization / Diederik P. Kingma, Jimmy Ba // arXiv. – 2014. – URL: https://arxiv.org/pdf/1412.6980.pdf (дата обращения: 01.02.2022).
12 Keiron O'Shea. An Introduction to Convolutional Neural Networks / Keiron O'Shea, Ryan Nash // arXiv. – 2015. – URL: https://arxiv.org/pdf/ 1511.08458.pdf (дата обращения: 01.02.2022).
13 Magnus Sahlgren. The distributional hypothesis / Magnus Sahlgren // Italian Journal of Linguistics. – 2008. – URL: https://www.italian-journal- linguistics.com/app/uploads/2021/05/Sahlgren-1.pdf (дата обращения: 01.02.2022)
14 Pinky Sitikhu. A Comparison of Semantic Similarity Methods for Maximum Human Interpretability / Pinky Sitikhu, Kritish Pahi, Pujan Thapa, Subarna Shakya // arXiv. – 2019. – URL: https://arxiv.org/pdf/1910.09129.pdf (дата обращения: 01.02.2022).
15 Piotr Bojanowski. Enriching Word Vectors with Subword Information / Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov // arXiv. – 2016. – URL: https://arxiv.org/pdf/1607.04606.pdf (дата обращения: 01.02.2022)..20

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ