Применение GAN подхода в задаче распознавания образов
|
Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. GAN подход 6
1.1 Основная концепция GAN подхода 6
1.2 Многослойный персептрон 8
1.3 GAN с многослойным персептроном 10
Глава 2. DCGAN подход 12
2.1 Сверточные нейронные сети 12
2.2 Batch нормализация 13
2.3 Архитектура дискриминативной DCGAN модели 14
2.4 Архитектура порождающей DCGAN модели 16
2.5 Результаты DCGAN подхода 18
Глава 3. Повышение разрешения изображения 20
3.1 Алгоритм Inpainting с применением GAN подхода 20
3.2 Применение Inpainting для задачи повышения разрешения 22
3.3 Алгоритм SRGAN 23
3.4 Метрики качества оценки результатов 24
Выводы 26
Заключение 29
Список литературы 31
Приложение А 33
Приложение Б 34
Постановка задачи 4
Обзор литературы 5
Глава 1. GAN подход 6
1.1 Основная концепция GAN подхода 6
1.2 Многослойный персептрон 8
1.3 GAN с многослойным персептроном 10
Глава 2. DCGAN подход 12
2.1 Сверточные нейронные сети 12
2.2 Batch нормализация 13
2.3 Архитектура дискриминативной DCGAN модели 14
2.4 Архитектура порождающей DCGAN модели 16
2.5 Результаты DCGAN подхода 18
Глава 3. Повышение разрешения изображения 20
3.1 Алгоритм Inpainting с применением GAN подхода 20
3.2 Применение Inpainting для задачи повышения разрешения 22
3.3 Алгоритм SRGAN 23
3.4 Метрики качества оценки результатов 24
Выводы 26
Заключение 29
Список литературы 31
Приложение А 33
Приложение Б 34
В настоящее время технологии распознавания образов достигли серьёзных успехов, в особенности с использованием глубокого обучения [1]. Построение сложных иерархических моделей позволяет решать различные задачи, и значительного прогресса здесь удалось добиться благодаря так называемым дискриминативным (discriminative) моделям. Их основной функцией является определение принадлежности какого-либо объекта к одному из заранее известных классов. Дискриминативный подход интуитивно понятен, здесь можно провести аналогию: человек тоже в своем развитии учится отличать предметы друг от друга, тем самым познавая окружающий мир. Главными представителями данного подхода являются, например, многослойные персептроны, решающие деревья, метод опорных векторов (SVM).
Существует альтернативная концепция машинного обучения, базирующаяся на использовании порождающих (generative) моделей. В отличие от дискриминативных моделей здесь базовый принцип можно сформулировать так: «понять - значит повторить». Действительно, если человек хорошо понимает, что из себя представляет объект, то ему не составит труда детально описать его, он с легкостью сможет самостоятельно «создать» копию этого предмета.
Недавно была предложена [2] «гибридная» концепция Generative Adversarial Networks (GAN), объединяющая дискриминативную и порождающую модели в единую обучаемую систему. Сущностью этого подхода является игра, соревнование порождающей и дискриминативной модели, в ходе которой каждая из них будет обучаться исключительно за счет своего «соперника», и результат может быть достигнут только при должном вкладе обоих участников. Опубликовано множество применений этого подхода для решения различных задач [3,4,5], одна из них будет рассматриваться далее.
Постановка задачи
Одним из важнейших вопросов, связанным с распознаванием образов, является задача повышения разрешения изображений (super-resolution). Известно множество различных подходов к решению этой проблемы [6,7,8,9,10], в данной работе будут рассматриваться два алгоритма, в основе которых лежит GAN подход, целью исследования будет их сравнительный анализ.
Первый из рассматриваемых подходов - SRGAN [7] является специализированным именно для данного типа задач. Второй - Semantic Image Inpainting with Perceptual and Contextual Losses [6] - изначально предложен для проблемы, называющейся дорисовкой (inpainting). Ее основная цель - восстановить изображение, на котором присутствуют некоторые дефекты или шумы. В действительности, эту задачу можно рассматривать как более общую постановку задачи повышения разрешения, поскольку здесь также необходимо каким-то образом восстановить отсутствующие пиксели. Главное отличие в том, что в проблеме дорисовки испорченные пиксели могут быть произвольными, а в задаче увеличения разрешения исходные пиксели заданы на регулярной решетке с определенным шагом.
Существует альтернативная концепция машинного обучения, базирующаяся на использовании порождающих (generative) моделей. В отличие от дискриминативных моделей здесь базовый принцип можно сформулировать так: «понять - значит повторить». Действительно, если человек хорошо понимает, что из себя представляет объект, то ему не составит труда детально описать его, он с легкостью сможет самостоятельно «создать» копию этого предмета.
Недавно была предложена [2] «гибридная» концепция Generative Adversarial Networks (GAN), объединяющая дискриминативную и порождающую модели в единую обучаемую систему. Сущностью этого подхода является игра, соревнование порождающей и дискриминативной модели, в ходе которой каждая из них будет обучаться исключительно за счет своего «соперника», и результат может быть достигнут только при должном вкладе обоих участников. Опубликовано множество применений этого подхода для решения различных задач [3,4,5], одна из них будет рассматриваться далее.
Постановка задачи
Одним из важнейших вопросов, связанным с распознаванием образов, является задача повышения разрешения изображений (super-resolution). Известно множество различных подходов к решению этой проблемы [6,7,8,9,10], в данной работе будут рассматриваться два алгоритма, в основе которых лежит GAN подход, целью исследования будет их сравнительный анализ.
Первый из рассматриваемых подходов - SRGAN [7] является специализированным именно для данного типа задач. Второй - Semantic Image Inpainting with Perceptual and Contextual Losses [6] - изначально предложен для проблемы, называющейся дорисовкой (inpainting). Ее основная цель - восстановить изображение, на котором присутствуют некоторые дефекты или шумы. В действительности, эту задачу можно рассматривать как более общую постановку задачи повышения разрешения, поскольку здесь также необходимо каким-то образом восстановить отсутствующие пиксели. Главное отличие в том, что в проблеме дорисовки испорченные пиксели могут быть произвольными, а в задаче увеличения разрешения исходные пиксели заданы на регулярной решетке с определенным шагом.
В данной работе была рассмотрена проблема повышения разрешения изображения и возможности ее решения с помощью относительно нового GAN подхода. Главной целью являлось сравнение двух алгоритмов на базе данного подхода: алгоритма Inpainting и алгоритма SRGAN. Первый из них создан для более общего типа задач дорисовки и напрямую к данной конкретной проблеме до этого не применялся. Второй же, напротив, является специально разработанным алгоритмом для задачи повышения разрешения. Основной вопрос заключался в том, справится ли алгоритм Inpainting с поставленной перед ним задачей, т.е. будут ли увеличенные изображения являться качественными, и если справится, то насколько сильно он будет уступать алгоритму SRGAN.
В процессе анализа данной проблемы первоначально был успешно реализован сам GAN подход, показаны отличия в результатах, которые возникают, если использовать различные нейронные сети в качестве конкурирующих моделей. В частности, были приведены примеры использования многослойных персептронов и сверточных сетей. На последних и было решено остановиться, т.к. они смогли продемонстрировать, что обладают возможностью создавать качественные, мало отличимые от реальных, изображения.
Затем к уже обученной GAN модели, состоящей из сверточных нейронных сетей, был применен алгоритм Inpainting, благодаря которому данная модель получила возможность увеличивать разрешение фотографий. После этого была создана совершенно отдельная нейросетевая архитектура для алгоритма SRGAN.
В итоге сравнение результатов работ двух данных алгоритмов показало, что по субъективной визуальной оценке и по формальным аналитическим метрикам качества алгоритм SRGAN справился с задачей лучше. При этом нельзя утверждать, что алгоритм Inpainting сильно отстал: значения показателя SSIM, использованного для оценки полученных изображений, говорят о том, что разница в качестве между алгоритмами является весьма незначительной. К тому же он обладает неоспоримым преимуществом перед SRGAN в том, что при изменении мультипликатора нет необходимости переучивать GAN модель заново.
Таким образом, из вышесказанного можно сделать вывод, что алгоритм Inpainting имеет смысл применять в следующих ситуациях:
• имеется уже обученная GAN модель для каких-либо других целей, при этом поставлена задача увеличения фотографий (особенно в короткие сроки)
• заранее неизвестно, во сколько раз потребуется увеличивать фотографию, или, напротив, есть уверенность, что будет необходимо производить повышение разрешения с разным мультипликатором
Во всех представленных случаях применение алгоритма Inpainting полностью оправдано, т.к. его реализация не требует перенастройки GAN модели. Если же имеется достаточно времени для полного переобучения нейронных сетей и требуется добиться наилучшего качества, то , бесспорно, выбор специализированного алгоритма SRGAN не должен вызывать вопросов.
В процессе анализа данной проблемы первоначально был успешно реализован сам GAN подход, показаны отличия в результатах, которые возникают, если использовать различные нейронные сети в качестве конкурирующих моделей. В частности, были приведены примеры использования многослойных персептронов и сверточных сетей. На последних и было решено остановиться, т.к. они смогли продемонстрировать, что обладают возможностью создавать качественные, мало отличимые от реальных, изображения.
Затем к уже обученной GAN модели, состоящей из сверточных нейронных сетей, был применен алгоритм Inpainting, благодаря которому данная модель получила возможность увеличивать разрешение фотографий. После этого была создана совершенно отдельная нейросетевая архитектура для алгоритма SRGAN.
В итоге сравнение результатов работ двух данных алгоритмов показало, что по субъективной визуальной оценке и по формальным аналитическим метрикам качества алгоритм SRGAN справился с задачей лучше. При этом нельзя утверждать, что алгоритм Inpainting сильно отстал: значения показателя SSIM, использованного для оценки полученных изображений, говорят о том, что разница в качестве между алгоритмами является весьма незначительной. К тому же он обладает неоспоримым преимуществом перед SRGAN в том, что при изменении мультипликатора нет необходимости переучивать GAN модель заново.
Таким образом, из вышесказанного можно сделать вывод, что алгоритм Inpainting имеет смысл применять в следующих ситуациях:
• имеется уже обученная GAN модель для каких-либо других целей, при этом поставлена задача увеличения фотографий (особенно в короткие сроки)
• заранее неизвестно, во сколько раз потребуется увеличивать фотографию, или, напротив, есть уверенность, что будет необходимо производить повышение разрешения с разным мультипликатором
Во всех представленных случаях применение алгоритма Inpainting полностью оправдано, т.к. его реализация не требует перенастройки GAN модели. Если же имеется достаточно времени для полного переобучения нейронных сетей и требуется добиться наилучшего качества, то , бесспорно, выбор специализированного алгоритма SRGAN не должен вызывать вопросов.
Подобные работы
- Распознавание изображений математических выражений
Бакалаврская работа, прикладная информатика. Язык работы: Русский. Цена: 3800 р. Год сдачи: 2024 - ВНЕДРЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В СФЕРЕ ИСКУССТВА: ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ И ИХ ВОЗМОЖНЫЕ РЕШЕНИЯ НА РУБЕЖЕ 2010-2020х ГОДОВ (НА МАТЕРИАЛЕ ХУДОЖЕСТВЕННОГО СООБЩЕСТВА Г.КРАСНОЯРСКА
Бакалаврская работа, культурология. Язык работы: Русский. Цена: 4370 р. Год сдачи: 2023



