Введение 4
Постановка задачи 8
Обзор литературы 9
Глава 1. Архитектура LFIEM 14
1.1. Генератор параметров 15
1.2. Преобразования изображений 16
1.3. Функция потерь с регуляризацией согласованности 21
Глава 2. Постановка экспериментов 22
2.1. Набор данных 22
2.2. Метрики качества 23
2.3. Детали реализации 24
Глава 3. Анализ полученных результатов 25
3.1. Анализ фильтров 26
3.2. Влияние регуляризации согласованности 27
3.3. Сравнительный анализ с другими методами 28
Глава 4. Интеграции LFIEM в комбинированные архитектуры классификации изображений 30
4.1. Задача классификации изображений в сложных условиях 30
4.2. Интеграция LFIEM в комбинированный классификатор удостоверений личности 31
4.3. Интеграция LFIEM в комбинированный классификатор фотографий фасадов коммерческих зданий 32
4.4. Анализ результатов интеграции 32
Заключение 33
Список литературы 34
В настоящее время, функционал для ретуши фотографий интегрируются во все большее число мобильных приложений. Многие современные подходы, основанные на механизмах машинного обучения, улучшают цветовую гамму изображений с помощью тяжеловесных моделей на основе сверточных нейронных сетей, где результат получается непосредственно из выходных данных нейронной сети. Подобные методы могут приводить к появлению артефактов в результирующих изображениях. Более того, архитектура подобных моделей, как правило сложно интерпретируема, требует длительного и трудоемкого процесса обучения, а также занимает много места в памяти устройств и требует много времени при обработке фотографий.
В последние годы фотография стала неотъемлемой частью жизни многих людей, и объем создаваемых изображений неуклонно растет. Снимки самых разнообразных объектов выполняются в различных условиях окружающей среды с использованием различных устройств. Это может привести к появлению артефактов на изображениях, ухудшающих визуальное восприятие фотографий. Поскольку качественная ручная постобработка изображений требует от фотографа значительных усилий и специальных навыков, автоматическое улучшение изображений (см. Рис. 1) становится все более актуальным.
Задача автоматического улучшения изображений еще не решена в общем виде из-за большого количества факторов, таких как яркость, контраст, локальные артефакты изображения, размытость и другие аспекты, влияющие на восприятие изображения человеческим глазом. В настоящее время существует несколько типов подходов к решению задачи автоматического улучшения изображений.
Рис. 1: Пример автоматического улучшения цветовой гаммы изображения с помощью модели, разработанной в ходе выполнения данной работы (LFIEM [1]). Оригинальное изображение получено из набора данных Adobe FiveK dataset. (Слева) расположено исходное изображение. (Справа) расположено изображение, полученное с помощью LFIEM [1] из исходного. LFIEM [1] не порождает артефактов и показывает хорошие результаты на изображениях с высокой степенью детализации.
Существует категория подходов, которые, прогнозируют параметры фильтров для последовательной обработки изображений [2,3]. Однако, отсутствие всестороннего сравнительного анализа изображений порождает вопрос о наиболее оптимальном стеке фильтров для улучшения изображений. Более того, несмотря на то, что обработка изображений непостред- ственно на мобильных устройствах является весьма прогрессивным подходом, поскольку не требует передачи данных или дополнительных зависимостей на сервер, чем облегчает обработку информации в реальном времени, подавляющее число методов улучшения цветовой гаммы изображений не подходят для использования на мобильных устройствах.
Как было отмечено ранее, многие подходы основаны на получении результата улучшения изображения непосредственно из выходов нейронной сети [4-6]. Недостатком таких методов является то, что они могут привести к неестественному искажению результирующего изображения, которое обычно вызвано разницей в разрешении между обрабатываемым изображением и выборками из обучающего набора. Кроме того, большинство "чистых"моделей на основе только CNN не могут быть развернуты на мобильных платформах, поскольку такие модели довольно тяжеловесны.
Для решения вышеупомянутых проблем, в рамках данной работы создана облегченная модель автоматического улучшения цветовой гаммы изображений (Lightweight Filter based Image Enhancement Model - LFIEM [1]), которая подходит для использования на мобильных устройствах. Кроме того, к в рамках данного исследования, предлагается комплексный сравнительный анализ фильтров для построения наиболее оптимального метода цветокоррекции и проведения сравнительного анализа представленного решения с другими моделями. Таким образом, в рамках данной работы произведено исследование применения подхода к коррекции цветовой гаммы изображений на основе фильтров, решающего описанные выше проблемы. При разработке данного решения был сделан акцент на создании легковесного метода, подходящего для использования на мобильных устройствах. Значительное повышение производительности было достигнуто за счет адаптации и применения регуляризации согласованности, используемой в обучении с частичным привлечением учителя. Предлагаемая модель может быть использована на мобильных устройствах и обеспечивает конкурентоспособные результаты по сравнению с известными подходами.
Таким образом, разработанная модель (LFIEM [1]) обладает следующими характеристиками:
1. Предложенная модель легковесна и может использоваться на мобильных устройствах. По сравнению с моделями с аналогичными значениями метрик качества на наборе данных MIT Adobe FiveK [7], предложенная модель содержит значительно меньше весов. Более того, небольшой размер предлагаемой модели приводит к высокой скорости работы, что расширяет возможности развертывания.
2. Разработанное решение не склонно к генерации артефактов, в отличие от большинства моделей на основе CNN [4,6], которые получают результирующее изображение непосредственно из выходов сверточной нейросетевой архитектуры.
3. Так как для разработки предложенной модели было проведено обширное исследование обучаемых преобразований изображений, среди многочисленных аналогов, была выбрана оптимальная стратегия улучшения изображений, согласно всестороннему сравнительному анализу обучаемых фильтров цветовой гаммы изображений.
4. Разработанная модель обучена с помощью адаптированного и специально реализованного метода регуляризации согласованности, используемого в обучении моделей с частичным привлечением учителя [8,9], что позволило добиться лучших значений метрик качества.
Также следует отметить, что коррекция цветовой гаммы изображений способствует улучшению качества последующего анализа изображений. Данный эффект достигается путем коррекции недостаточного освещения объекта, избыточного освещения запечатленной сцены, коррекции областей засвета и других артефактов, возникающих при получении цифрового снимка. Для исследования применимости разработанной модели для улучшения качества работы различных классификаторов изображений [10-14], разработанная модель была интегрирована в стек разработотанных автором комбинированных нейросетевых классификаторов [10-14]. Данная интеграция позволила улучшить качество классификации изображений различного рода в составе различных комбинированных классификаторов, что описано в данной работе. Таким образом, помимо прямого применения разработанного механизма улучшения цветовой гаммы для улучшения пользовательских фотографий, предлагаемое решение позволяет улучшать качество работы некоторых классификаторов путем предварительной обработки анализируемых изображений.
В ходе данной работы была создана облегченная модель улучшения изображений (LFIEM [1]), преимуществами которой является интерпретируемая архитектура и небольшое количество весов (101547 обучаемых параметров) позволяет разворачивать полученное решение на мобильных устройствах. Кроме того, LFIEM [1] превосходит подавляющее большинство известных моделей улучшения цветовой гаммы изображений и содержит как минимум в десять раз меньше параметров, чем большинство из них. Также для обучения LFIEM [1] был адаптирован современный подход регуляризации согласованности, который позволил достичь лучших результатов по сравнению с другими моделями. Также был проведен анализ применимости и интеграция разработанной модели в стеки различных комбинированных классификаторов, разработанных автором [10-14], в результате чего был обнаружен прирост качества классификации, что продемонстрировало эффективность применимости данной нейросетевой модели на стадии предобработки для последующей классификации изображений. В процессе разработки LFIEM [1] был проведен всесторонний сравнительный анализ различных преобразований, используемых для улучшения цветовой гаммы изображений. Результаты данной работы были предстал- вены на ряде международных и российских конференций: ICPR 2020 (25th International Conference on Pattern Recognition), Baltic DBIS 2020 (14th International Baltic Conference on Databases and Information Systems) - Best Short Paper Award, AIST 2020 (10th International Conference on Analysis of Images, Social Networks and Texts), AIST 2019 (9th International Conference on Analysis of Images, Social Networks and Texts), SEIM 2020 (5th Conference on Software Engineering and Information Management) и опубликованы в соответствующих сборниках и журналах [1,10-14].
[1] O. Tatanov and A. Samarin, “Lfiem: Lightweight filter-based image enhancement model,” in 2020 25th International Conference on Pattern Recognition (ICPR), 2021, pp. 873-878.
[2] Y. Hu, H. He, C. Xu, B. Wang, and S. Lin, “Exposure: A white-box photo postprocessing framework,” ACM Transactions on Graphics (TOG), vol. 37, no. 2, p. 26, 2018.
[3] J. Park, J.-Y. Lee, D. Yoo, and I. So Kweon, “Distort-and-recover: Color enhancement using deep reinforcement learning,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5928-5936.
[4] Y.-S. Chen, Y.-C. Wang, M.-H. Kao, and Y.-Y. Chuang, “Deep photo enhancer: Unpaired learning for image enhancement from photographs with gans,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 63066314.
[5] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-to-image translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125-1134.
[6] C. Shan, Z. Zhang, and Z. Chen, “A coarse-to-fine framework for learned color enhancement with non-local attention,” in 2019 IEEE International Conference on Image Processing (ICIP), Sep. 2019, pp. 949-953.
[7] V. Bychkovsky, S. Paris, E. Chan, and F. Durand, “Learning photographic global tonal adjustment with a database of input/output image pairs,” in CVPR 2011. IEEE, 2011, pp. 97-104.
[8] Y. Reddy, V. Pulabaigari, and E. B, “Semi-supervised learning: a brief review,” International Journal of Engineering Technology, vol. 7, p. 81, 02 2018.
[9] M. Sajjadi, M. Javanmardi, and T. Tasdizen, “Regularization with stochastic transformations and perturbations for deep semi-supervised learning,” in Advances in Neural Information Processing Systems, 2016, pp. 1163-1171.
[10] A. Samarin and V. Malykh, Ensemble-Based Commercial Buildings Facades Photographs Classifier. Analysis of Images, Social Networks and Texts (AIST), Springer International Publishing, 04 2021, pp. 257-265.
[11] Worm-like image descriptor for signboard classification. Proceedings of the Fifth Conference on Software Engineering and Information Management 2020 (SEIM 2020), CEUR Workshop Proceedings, 05 2020.
[12] A. Samarin, V. Malykh, and S. Muravyov, Specialized Image Descriptors for Signboard Photographs Classification. Databases and Information Systems, Springer International Publishing, 08 2020, pp. 122-129.
[13] А.В. Самарин, В.А. Малых, Метод верификации изображений удостоверений личности по ограниченному фрагменту изображения. Труды Института системного анализа РАН, 2020, pp. 15-23.
[14] V. Malykh and A. Samarin, “Combined advertising sign classifier,” in Analysis of Images, Social Networks and Texts. Cham: Analysis of Images, Social Networks and Texts (AIST), Springer International Publishing, 2019, pp. 179-185.
[15] Z. Yan, H. Zhang, B. Wang, S. Paris, and Y. Yu, “Automatic photo adjustment using deep neural networks,” ACM Transactions on Graphics (TOG), vol. 35, no. 2, p. 11, 2016.
...