🔍 Поиск готовых работ

🔍 Поиск работ

Разработка программного фильтра для контекстно-встроенной рекламы в видеоряде на основе нейросетевых технологий

Работа №202132

Тип работы

Дипломные работы, ВКР

Предмет

программирование

Объем работы60
Год сдачи2019
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
15
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 6
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 9
1.1. Обзор научных подходов 9
1.2. Обзор программных аналогов 13
Выводы по главе 1 13
2. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 14
2.1. Преобразование текста в числовой вектор 14
2.1.1. Этапы предобработки текстовых данных 14
2.1.2. Векторизация методом мешка слов 15
2.1.3. Векторизация методом Doc2Vec 16
2.1.4. Векторизация методом Universal Sentence Encoder 18
2.2. Методы решения задачи классификации 18
2.2.1. Решающие деревья 19
2.2.2. Нейронные сети 21
2.3. Метрики качества модели 24
Выводы по главе 2 26
3. ПРОЕКТИРОВАНИЕ 27
3.1. Проектирование системы 27
3.2. Проектирование системы для накопления обучающей выборки 28
3.2.1. Диаграмма вариантов использования 29
3.2.2. Диаграмма компонентов 30
3.2.3. Диаграмма деятельности пользователя 30
3.3. Проектирование серверной части 32
3.4. Проектирование браузерного расширения 33
3.5. Проектирование детектирующей модели 34
3.5.1. Разбиение видео на фрагменты 35
3.5.2. Признаковое описание фрагментов на основе субтитров 36
3.5.3. Классификация сцен по признаковому описанию 38
3.5.4. Постобработка выбранных фрагментов 38
Выводы по главе 3 39
4. РЕАЛИЗАЦИОННАЯ ЧАСТЬ 40
4.1. Система накопления обучающей выборки 40
4.2. Загрузка данных для обучения моделей 40
4.3. Реализация серверной части детектора 41
4.4. Реализация расширения для браузера 42
4.5. Реализация детектирующей модели 43
4.5.1. Разбиение на сцены 44
4.5.2. Предобработка субтитров 46
4.5.3. Перевод текста в числовой вектор 46
4.5.4. Классификатор сцен 47
4.5.5. Постобработка 48
Выводы по главе 4 49
5. ТЕСТИРОВАНИЕ 50
5.1. Тестирование детектирующей модели 50
5.1.1. Описание процедуры тестирования 50
5.1.2. Выбор видеороликов 52
5.1.3. Результаты тестирования 52
5.2. Интеграционное тестирование системы 54
Выводы по главе 5 55
ЗАКЛЮЧЕНИЕ 57
ЛИТЕРАТУРА 58


Машинное обучение - быстро развивающийся сегмент области знания, связанной с искусственным интеллектом - является катализатором развития самых разных отраслей, начиная от медицины и фармакологии и заканчивая автопилотируемыми автомобилями. По всему миру разные научные институты и коммерческие компании пытаются применять машинное обучение, чтобы получить качественно новые результаты в своих областях.
Индустрия развлечений и, в частности, видеоблогинг каждый год стремительно набирает популярность. Самой популярной площадкой для видеохостинга по праву считается YouTube, принадлежащий компании Google. Согласно информации с их официального сайта [17], аудитория YouTube насчитывает более одного миллиарда зарегистрированных пользователей и более одного миллиарда часов видео просматривается пользователями ежедневно.
Вместе с ростом популярности видеоблогов в Интернете с каждым годом также растет сегмент нежелательной видеорекламы. Сейчас уже достаточно трудно найти видеоролик без рекламных интеграций. Для видеоблогеров реклама является основным доходом, но для пользователей эта реклама редко имеет пользу, большинство не хотели бы отвлекаться на рекламные вставки во время просмотра основного содержания. Этим обусловлена популярность браузерного расширения AdBlock (более 100 миллионов устройств [18]), который помимо блокирования рекламных баннеров на сайтах может также справляться со вставками рекламных роликов в видео. Однако его возможности ограничены блокированием рекламных вставок, которые предоставляются самой платформой YouTube и не являются частью видеоролика.
В отдельный класс необходимо выделить рекламные вставки, которые добавляются самим блогером в видеоролик во время монтажа. Детектирование и блокирование такого вида рекламы является сложной задачей, на 6
которую AdBlock не рассчитан. Некоторые видеоблогеры стараются интегрировать рекламу в основное повествование. Такие рекламные интеграции с одной стороны часто невозможно убрать, не задев основное содержание, но с другой стороны, такие вставки гораздо меньше раздражают пользователей. Поэтому в данной работе мы сфокусируемся на типе рекламы, являющейся частью видеоролика, которую возможно отделить от основного содержания.
Стоит отметить, что решение задачи детектирования рекламы актуально не только для пользователей, но и для самих рекламодателей. Система, способная правильно детектировать и классифицировать рекламные вставки, может позволить рекламодателям сделать процесс проверки исполнения заказов на рекламу и получения соответствующих отчетов автоматическим.
Цель и задачи исследования
Целью работы является разработка браузерного расширения с функцией интеллектуального фильтра рекламных фрагментов в роликах видеохостинга YouTube. Для достижения этой цели необходимо решить следующие задачи:
1) изучить существующие методы фильтрации рекламы в видео;
2) разработать систему для ручной разметки рекламы в видеороликах в целях накопления обучающей выборки;
3) собрать обучающую выборку с помощью разработанной системы;
4) разработать и обучить модель распознавания рекламных вставок в видеоролик;
5) разработать и протестировать REST API модуля фильтрации рекламы;
6) разработать масштабируемую серверную часть для обработки запросов браузерного расширения;
7) разработать расширение для браузера.
Структура и объем
Выпускная квалификационная работа состоит из введения, пяти основных разделов, заключения и библиографии. Объем работы составляет 60 страниц, объем библиографии - 34 наименования.
Содержание работы
В первом разделе «Анализ предметной области» приводится обзор и анализ существующих научных подходов и программных продуктов по теме исследования. Во втором разделе «Теоретическая часть» описываются алгоритмы преобразование текста в векторное представление и алгоритмы машинного обучения, используемые для решения задач классификации. В третьем разделе «Проектирование» описывается алгоритм детектирования рекламных фрагментов, архитектура системы в целом и архитектура каждого составного модуля системы. В четвертом разделе «Реализационная часть» описывается программная реализация каждого компонента системы. В пятом разделе «Тестирование» приводятся результаты тестирования реализованной системы. В заключении приводятся основные результаты работы и направления дальнейших исследований.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Цель данной работы состояла в разработке расширения для браузера Google Chrome с функцией интеллектуального фильтрования рекламных фрагментов в роликах видеохостинга YouTube. Цель была достигнута, в ходе достижения этой цели были решены следующие задачи:
1) изучены существующие методы фильтрации рекламы в видео;
2) разработана система для ручной разметки рекламы в видеороликах в целях накопления обучающей выборки;
3) собрана обучающая выборка с помощью разработанной системы;
4) разработана и обучена модель распознавания рекламных вставок в видеоролик;
5) разработан и протестирован REST API модуля фильтрации рекламы;
6) разработана масштабируемая серверная часть для обработки запросов браузерного расширения;
7) разработано расширение для браузера.
Весь исходный код разработанной системы доступен на Github [9].
Направления дальнейший исследований
В дальнейшем планируется продолжить работу по этой теме, увеличить размер и многообразие обучающей выборки, применить современные методы работы с текстом и видео, исследовать возможность детектирования более сложных форматов рекламы.



1. Castellano B. PySceneDetect [Electronic resource]. URL: https://pyscenedetect.readthedocs.io/en/latest/ (the date of access: 10.05.2019).
2. Cer D. et al. Universal Sentence Encoder [Electronic Resource]. // arXiv.org, 2018. URL: https://arxiv.org/abs/1803.11175 (the date of access: 07.06.2019).
3. Chih-Hsuan Y. youtube-dl [Electronic resource]. URL: https://github.com/ytdl-org/youtube-dl (the date of access: 06.05.2019).
4. Conejero D., Anguera X. TV advertisements detection and clustering based on acoustic information. // CIMCA, 2008. - P. 452-457.
5. Hua X.S., Lu L., Zhang H.J. Robust learning-based TV commercial detection. // IEEE ICME, 2005.
6. Korobov M. Морфологический анализатор pymorphy2 [Электронный ресурс]. URL: https://pymorphy2.readthedocs.io/en/latest/ (дата обращения: 27.05.2019).
7. Le Q. V., Mikolov T. Distributed Representations of Sentences and Documents. // ICML, 2014. - Vol. 32. - P. 1188-1196.
8. Lienhart R., Kuhmunch C., Effelsberg W. On the Detection and Recognition of Television Commercials. // IEEE, 1997.
9. Lyzhin I. YouTubeAdvertisementDetector - Detector of blogger advertisements in YouTube videos [Electronic resource]. URL: https://github.com/LyzhinIvan/YouTubeAdvertisementDetector (the date of access: 07.06.2019).
10. Mendez A. webvtt-py - PyPI [Electronic resource]. URL: https://pypi.org/project/webvtt-py/ (the date of access: 06.05.2019).
11. Mikolov T. et al. Efficient Estimation of Word Representations in Vector Space [Electronic resource]. // arXiv.org, 2013. URL: https://arxiv.org/abs/1301.3781 (the date of access: 07.06.2019).
12. Sadlier D.A. et al. Automatic TV advertisement detection from MPEG bitstream. // PRIS, 2002. - P. 14-25.
13. Schuster M., Paliwal K.K. Bidirectional Recurrent Neural Networks. // IEEE TRANSACTIONS ON SIGNAL PROCESSING, 1997. - Vol. 45. -
No. 11. - P. 2673-2681.
14. Hochreiter S., Schmidhuber J. Long Short-Term Memory. // Neural Computation, 1997. - Vol. 9. - No. 8. - P. 1735-1780.
15. Радченко В., Кашницкий Ю. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес [Электронный ресурс]. URL: https://habr.com/ru/company/ods/blog/324402/ (дата обращения: 29.05.2019)...34


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ