Тема: Разработка программного фильтра для контекстно-встроенной рекламы в видеоряде на основе нейросетевых технологий
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 9
1.1. Обзор научных подходов 9
1.2. Обзор программных аналогов 13
Выводы по главе 1 13
2. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 14
2.1. Преобразование текста в числовой вектор 14
2.1.1. Этапы предобработки текстовых данных 14
2.1.2. Векторизация методом мешка слов 15
2.1.3. Векторизация методом Doc2Vec 16
2.1.4. Векторизация методом Universal Sentence Encoder 18
2.2. Методы решения задачи классификации 18
2.2.1. Решающие деревья 19
2.2.2. Нейронные сети 21
2.3. Метрики качества модели 24
Выводы по главе 2 26
3. ПРОЕКТИРОВАНИЕ 27
3.1. Проектирование системы 27
3.2. Проектирование системы для накопления обучающей выборки 28
3.2.1. Диаграмма вариантов использования 29
3.2.2. Диаграмма компонентов 30
3.2.3. Диаграмма деятельности пользователя 30
3.3. Проектирование серверной части 32
3.4. Проектирование браузерного расширения 33
3.5. Проектирование детектирующей модели 34
3.5.1. Разбиение видео на фрагменты 35
3.5.2. Признаковое описание фрагментов на основе субтитров 36
3.5.3. Классификация сцен по признаковому описанию 38
3.5.4. Постобработка выбранных фрагментов 38
Выводы по главе 3 39
4. РЕАЛИЗАЦИОННАЯ ЧАСТЬ 40
4.1. Система накопления обучающей выборки 40
4.2. Загрузка данных для обучения моделей 40
4.3. Реализация серверной части детектора 41
4.4. Реализация расширения для браузера 42
4.5. Реализация детектирующей модели 43
4.5.1. Разбиение на сцены 44
4.5.2. Предобработка субтитров 46
4.5.3. Перевод текста в числовой вектор 46
4.5.4. Классификатор сцен 47
4.5.5. Постобработка 48
Выводы по главе 4 49
5. ТЕСТИРОВАНИЕ 50
5.1. Тестирование детектирующей модели 50
5.1.1. Описание процедуры тестирования 50
5.1.2. Выбор видеороликов 52
5.1.3. Результаты тестирования 52
5.2. Интеграционное тестирование системы 54
Выводы по главе 5 55
ЗАКЛЮЧЕНИЕ 57
ЛИТЕРАТУРА 58
📖 Введение
Индустрия развлечений и, в частности, видеоблогинг каждый год стремительно набирает популярность. Самой популярной площадкой для видеохостинга по праву считается YouTube, принадлежащий компании Google. Согласно информации с их официального сайта [17], аудитория YouTube насчитывает более одного миллиарда зарегистрированных пользователей и более одного миллиарда часов видео просматривается пользователями ежедневно.
Вместе с ростом популярности видеоблогов в Интернете с каждым годом также растет сегмент нежелательной видеорекламы. Сейчас уже достаточно трудно найти видеоролик без рекламных интеграций. Для видеоблогеров реклама является основным доходом, но для пользователей эта реклама редко имеет пользу, большинство не хотели бы отвлекаться на рекламные вставки во время просмотра основного содержания. Этим обусловлена популярность браузерного расширения AdBlock (более 100 миллионов устройств [18]), который помимо блокирования рекламных баннеров на сайтах может также справляться со вставками рекламных роликов в видео. Однако его возможности ограничены блокированием рекламных вставок, которые предоставляются самой платформой YouTube и не являются частью видеоролика.
В отдельный класс необходимо выделить рекламные вставки, которые добавляются самим блогером в видеоролик во время монтажа. Детектирование и блокирование такого вида рекламы является сложной задачей, на 6
которую AdBlock не рассчитан. Некоторые видеоблогеры стараются интегрировать рекламу в основное повествование. Такие рекламные интеграции с одной стороны часто невозможно убрать, не задев основное содержание, но с другой стороны, такие вставки гораздо меньше раздражают пользователей. Поэтому в данной работе мы сфокусируемся на типе рекламы, являющейся частью видеоролика, которую возможно отделить от основного содержания.
Стоит отметить, что решение задачи детектирования рекламы актуально не только для пользователей, но и для самих рекламодателей. Система, способная правильно детектировать и классифицировать рекламные вставки, может позволить рекламодателям сделать процесс проверки исполнения заказов на рекламу и получения соответствующих отчетов автоматическим.
Цель и задачи исследования
Целью работы является разработка браузерного расширения с функцией интеллектуального фильтра рекламных фрагментов в роликах видеохостинга YouTube. Для достижения этой цели необходимо решить следующие задачи:
1) изучить существующие методы фильтрации рекламы в видео;
2) разработать систему для ручной разметки рекламы в видеороликах в целях накопления обучающей выборки;
3) собрать обучающую выборку с помощью разработанной системы;
4) разработать и обучить модель распознавания рекламных вставок в видеоролик;
5) разработать и протестировать REST API модуля фильтрации рекламы;
6) разработать масштабируемую серверную часть для обработки запросов браузерного расширения;
7) разработать расширение для браузера.
Структура и объем
Выпускная квалификационная работа состоит из введения, пяти основных разделов, заключения и библиографии. Объем работы составляет 60 страниц, объем библиографии - 34 наименования.
Содержание работы
В первом разделе «Анализ предметной области» приводится обзор и анализ существующих научных подходов и программных продуктов по теме исследования. Во втором разделе «Теоретическая часть» описываются алгоритмы преобразование текста в векторное представление и алгоритмы машинного обучения, используемые для решения задач классификации. В третьем разделе «Проектирование» описывается алгоритм детектирования рекламных фрагментов, архитектура системы в целом и архитектура каждого составного модуля системы. В четвертом разделе «Реализационная часть» описывается программная реализация каждого компонента системы. В пятом разделе «Тестирование» приводятся результаты тестирования реализованной системы. В заключении приводятся основные результаты работы и направления дальнейших исследований.
✅ Заключение
1) изучены существующие методы фильтрации рекламы в видео;
2) разработана система для ручной разметки рекламы в видеороликах в целях накопления обучающей выборки;
3) собрана обучающая выборка с помощью разработанной системы;
4) разработана и обучена модель распознавания рекламных вставок в видеоролик;
5) разработан и протестирован REST API модуля фильтрации рекламы;
6) разработана масштабируемая серверная часть для обработки запросов браузерного расширения;
7) разработано расширение для браузера.
Весь исходный код разработанной системы доступен на Github [9].
Направления дальнейший исследований
В дальнейшем планируется продолжить работу по этой теме, увеличить размер и многообразие обучающей выборки, применить современные методы работы с текстом и видео, исследовать возможность детектирования более сложных форматов рекламы.





