Тип работы:
Предмет:
Язык работы:


Применение GAN подхода в задаче распознавания образов

Работа №131314

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы35
Год сдачи2017
Стоимость4290 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
72
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. GAN подход 6
1.1 Основная концепция GAN подхода 6
1.2 Многослойный персептрон 8
1.3 GAN с многослойным персептроном 10
Глава 2. DCGAN подход 12
2.1 Сверточные нейронные сети 12
2.2 Batch нормализация 13
2.3 Архитектура дискриминативной DCGAN модели 14
2.4 Архитектура порождающей DCGAN модели 16
2.5 Результаты DCGAN подхода 18
Глава 3. Повышение разрешения изображения 20
3.1 Алгоритм Inpainting с применением GAN подхода 20
3.2 Применение Inpainting для задачи повышения разрешения 22
3.3 Алгоритм SRGAN 23
3.4 Метрики качества оценки результатов 24
Выводы 26
Заключение 29
Список литературы 31
Приложение А 33
Приложение Б 34


В настоящее время технологии распознавания образов достигли серьёзных успехов, в особенности с использованием глубокого обучения [1]. Построение сложных иерархических моделей позволяет решать различные задачи, и значительного прогресса здесь удалось добиться благодаря так называемым дискриминативным (discriminative) моделям. Их основной функцией является определение принадлежности какого-либо объекта к одному из заранее известных классов. Дискриминативный подход интуитивно понятен, здесь можно провести аналогию: человек тоже в своем развитии учится отличать предметы друг от друга, тем самым познавая окружающий мир. Главными представителями данного подхода являются, например, многослойные персептроны, решающие деревья, метод опорных векторов (SVM).
Существует альтернативная концепция машинного обучения, базирующаяся на использовании порождающих (generative) моделей. В отличие от дискриминативных моделей здесь базовый принцип можно сформулировать так: «понять - значит повторить». Действительно, если человек хорошо понимает, что из себя представляет объект, то ему не составит труда детально описать его, он с легкостью сможет самостоятельно «создать» копию этого предмета.
Недавно была предложена [2] «гибридная» концепция Generative Adversarial Networks (GAN), объединяющая дискриминативную и порождающую модели в единую обучаемую систему. Сущностью этого подхода является игра, соревнование порождающей и дискриминативной модели, в ходе которой каждая из них будет обучаться исключительно за счет своего «соперника», и результат может быть достигнут только при должном вкладе обоих участников. Опубликовано множество применений этого подхода для решения различных задач [3,4,5], одна из них будет рассматриваться далее.
Постановка задачи
Одним из важнейших вопросов, связанным с распознаванием образов, является задача повышения разрешения изображений (super-resolution). Известно множество различных подходов к решению этой проблемы [6,7,8,9,10], в данной работе будут рассматриваться два алгоритма, в основе которых лежит GAN подход, целью исследования будет их сравнительный анализ.
Первый из рассматриваемых подходов - SRGAN [7] является специализированным именно для данного типа задач. Второй - Semantic Image Inpainting with Perceptual and Contextual Losses [6] - изначально предложен для проблемы, называющейся дорисовкой (inpainting). Ее основная цель - восстановить изображение, на котором присутствуют некоторые дефекты или шумы. В действительности, эту задачу можно рассматривать как более общую постановку задачи повышения разрешения, поскольку здесь также необходимо каким-то образом восстановить отсутствующие пиксели. Главное отличие в том, что в проблеме дорисовки испорченные пиксели могут быть произвольными, а в задаче увеличения разрешения исходные пиксели заданы на регулярной решетке с определенным шагом.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе была рассмотрена проблема повышения разрешения изображения и возможности ее решения с помощью относительно нового GAN подхода. Главной целью являлось сравнение двух алгоритмов на базе данного подхода: алгоритма Inpainting и алгоритма SRGAN. Первый из них создан для более общего типа задач дорисовки и напрямую к данной конкретной проблеме до этого не применялся. Второй же, напротив, является специально разработанным алгоритмом для задачи повышения разрешения. Основной вопрос заключался в том, справится ли алгоритм Inpainting с поставленной перед ним задачей, т.е. будут ли увеличенные изображения являться качественными, и если справится, то насколько сильно он будет уступать алгоритму SRGAN.
В процессе анализа данной проблемы первоначально был успешно реализован сам GAN подход, показаны отличия в результатах, которые возникают, если использовать различные нейронные сети в качестве конкурирующих моделей. В частности, были приведены примеры использования многослойных персептронов и сверточных сетей. На последних и было решено остановиться, т.к. они смогли продемонстрировать, что обладают возможностью создавать качественные, мало отличимые от реальных, изображения.
Затем к уже обученной GAN модели, состоящей из сверточных нейронных сетей, был применен алгоритм Inpainting, благодаря которому данная модель получила возможность увеличивать разрешение фотографий. После этого была создана совершенно отдельная нейросетевая архитектура для алгоритма SRGAN.
В итоге сравнение результатов работ двух данных алгоритмов показало, что по субъективной визуальной оценке и по формальным аналитическим метрикам качества алгоритм SRGAN справился с задачей лучше. При этом нельзя утверждать, что алгоритм Inpainting сильно отстал: значения показателя SSIM, использованного для оценки полученных изображений, говорят о том, что разница в качестве между алгоритмами является весьма незначительной. К тому же он обладает неоспоримым преимуществом перед SRGAN в том, что при изменении мультипликатора нет необходимости переучивать GAN модель заново.
Таким образом, из вышесказанного можно сделать вывод, что алгоритм Inpainting имеет смысл применять в следующих ситуациях:
• имеется уже обученная GAN модель для каких-либо других целей, при этом поставлена задача увеличения фотографий (особенно в короткие сроки)
• заранее неизвестно, во сколько раз потребуется увеличивать фотографию, или, напротив, есть уверенность, что будет необходимо производить повышение разрешения с разным мультипликатором
Во всех представленных случаях применение алгоритма Inpainting полностью оправдано, т.к. его реализация не требует перенастройки GAN модели. Если же имеется достаточно времени для полного переобучения нейронных сетей и требуется добиться наилучшего качества, то , бесспорно, выбор специализированного алгоритма SRGAN не должен вызывать вопросов.



1. Neural Networks and Deep Learning, http://neuralnetworksanddeeplearning.com/
2. Ian J.Goodfellow, Jean Pouget-Abadie Generative Adversarial Nets // Departement d’informatique et de recherche operationnelle Universite de Montreal, 10 June 2014
3. Ian J.Goodfellow NIPS 2016 Tutorial: Generative Adversarial Networks, 3 Apr 2017
4. Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, Honglak Lee Generative Adversarial Text to Image Synthesis // University of Michigan, 5 Jun 2016
5. Xun Huang, Yixuan Li, Omid Poursaeed, John Hopcroft, Serge Belongie Stacked Generative Adversarial Networks // Department of Computer Science, Cornell University, 12 Apr 2017
6. Raymond Yeh, Chen Chen, Teck Yian Lim, Mark Hasegawa-Johnson, Minh N. Do Semantic Image Inpainting with Perceptual and Contextual Losses // Dept. of Electrical and Computer Engineering University of Illinois at Urbana-Champaign 14 Nov 2016
7. Christian Ledig, Lucas Theis, Ferenc Huszar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network // Twitter, 13 Apr 2017
8. Ryan Dahl, Mohammad Norouzi, Jonathon Shlens Pixel Recursive Super Resolution // Google Brain, 22 Mar 2017
9. Mehdi S. M. Sajjadi, Bernhard Scholkopf, Michael Hirsch EnhanceNet: Single Image Super-Resolution through Automated Texture Synthesis // Max-Planck- Institute for Intelligent Systems Spemanstr, 23 Dec 2016
10. Silvano Galliani, Charis Lanaras, Dimitrios Marmanis, Emmanuel Baltsavias, Konrad Schindler Learned Spectral Super-Resolution // Photogrammetry and Remote Sensing, ETH Zurich, Switzerland, 28 Mar 2017
11. Хайкин С. Нейронные сети. Полный курс. Второе издание. Москва: Изд. дом Вильямс, 2006. 225 с.
12. Sergey Ioffe, Christian Szegedy Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // Google Inc., 2 Mar 2015
13. Alec Radford, Luke Metz, Soumith Chintala Unsupervised representationg learning with deep convolutional generative adversarial networks, 7 Jan 2016


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ