В задачах машинного обучения качество моделей очень сильно зависит от данных. Но сами данные в реальных задачах редко бывают идеальными. Распространены следующие проблемы:
1. Малый размер набора данных.
2. Недостаток данных определенного типа [1], то есть ситуация, при которой модель не может обучиться качественно работать с некоторым признаком.
3. Несбалансированное обучающее множество [2], в котором доля примеров некоторого класса слишком мала.
4. Ложные корреляции исходных данных [3], когда не зависящие друг от друга признаки имеют схожее поведение. Это может подтолкнуть к ложным выводам о наличии причинно-следственной связи между явлениями.
5. Нерепрезентативность выборочных данных [4], то есть случай, при кото-рой обучающая выборка не отображает свойств генеральной совокупности.
6. Различные условия сбора данных для обучения и дальнейшего применения модели. Характерный пример — обучение и применение модели на двух датасетах с изображениями людей, но сформированных различным образом.
7. Ограниченность доступных для анализа параметров.
8. Присутствие шумов в наборе данных.
Использование таких данных при моделировании может приводить к неверным результатам. Поэтому важным этапом работы с данными является их предварительная обработка.
В 1998 году был представлен набор данных MNIST [5] — маркированный набор изображений рукописного написания цифр. Национальным институтом стандартов и технологий США было предложено использовать этот набор в качестве стандарта для сопоставления методов распознавания изображений с помощью машинного обучения. Распознавание рукописных цифр — сложная проблема, которая интенсивно изучалась в течение многих лет в области распознавания рукописного текста. Многочисленные результаты были достигнуты исследователями, которые использовали различные алгоритмы, такие как
• K-ближайшие соседи (KNNs) [6]
• машины опорных векторов (SVMs) [6]
• нейронные сети (NNs) [7]
• сверточные нейронные сети (CNNs) [8]
Задача распознавания рукописных цифр является важной во многих приложениях, включая автоматизированную сортировку почты по почтовому коду, автоматизированное чтение чеков и налоговых деклараций, а также ввод данных для портативных компьютеров. В этой области достигнут быстрый прогресс. Один из наилучших результатов точности распознавания 99,65% на датасете MNIST был достигнут с помощью 6-слойной свёрточной нейронной сети с предварительно обработанными данными [8].
Одного только усложнения архитектуры моделей CNN недостаточно для достижения лучших результатов точности классификации для любого набора данных. Методы предварительной обработки играют жизненно важную роль в достижении уровня техники в любом наборе данных. В данной работе рассмотрен метод обеливания данных, который является распространенным этапом предварительной обработки в статистическом анализе для преобразования случайных величин в ортогональные. Однако, как будет показано далее, благодаря вращательной свободе поворотов в пространстве признаков существует бесконечно много возможных процедур обеливания.
В данной работе было рассмотрено влияние предварительной обработки данных на точность распознавания изображений в задачах компьютерного зрения, а именно рассмотрено обеливание данных и его реализация методом анализа главных компонент (PCA) и методом анализа нулевых компонент (ZCA). Были реализованы модели двух архитектур свёрточной нейронной сети на языке Python. В качестве данных использовался классических набор рукописных цифр MNIST. Был проведён сравнительный анализ точности при обучении и точности на тестовых данных построенных моделей СНС на исходных и обеленных, а также случайно преобразованных данных.
Из полученных графиков точности распознавания моделей обеих архитектур в течение 10 эпох обучения следует, что предварительная обработка изображений PCA-обеливанием значительно замедляет скорость обучения. Даже на случайно преобразованных данных обе модели обучаются лучше. Однако предварительная обработка ZCA-обеливанием, сохраняющая пространственную структуру изображений, улучшает точность распознавания и на обучающей, и на тестовой выборках.
Численные эксперименты, проведенные в рамках работы, показали, что даже при «искажении» исходных данных некоторым (неизвестным для нейронной сети) линейным преобразованием, в результате которого исходное изображение изменяется до неузнаваемости, нейронная сеть оказывается способной хорошо обучиться для распознавания классов. Это наблюдение может быть очень полезно для задач обучения нейронных сетей без разглашения обучающего дата- сета, что имеет большое практическое значение.
[1] Gonfalonieri Alexandre. Dealing with the Lack of Data in Machine Learning. May 17, 20195. URL: https://medium.com/predict/dealing-with-the-lack-of- data-in-machine-learning-725f2abd2b92.
[2] Кафтанников И.Л., Парасич А.В. Проблемы формирования обучающей выборки в задачах машинного обучения // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника.». 2016. Т. 16, №3. С. 15-24.
[3] Yule G. Why do we Sometimes get Nonsense-Correlations between Time- Series?-A Study in Sampling and the Nature of Time-Series // Journal of the Royal Statistical Society. Т. 89. с. 1.
[4] The data representativeness criterion: Predicting the performance of supervised classification based on data set similarity / Evelien Schat, Rens van de Schoot, Wouter M. Kouw [и др.] // PLOS ONE. 2020. Aug. Т. 15, № 8. с. e0237009. URL: http://dx.doi.org/10.1371/journal.pone.0237009.
[5] LeCun Y., Bottou L., Bengio Y. [и др.]. THE MNIST DATABASE of handwritten digits. 1998. URL: http://yann.lecun.com/exdb/mnist/.
[6] Gradient-based learning applied to document recognition / Y. Lecun, L. Bottou, Y. Bengio [и др.] //Proceedings of the IEEE. 1998. Т. 86, № 11. С. 2278-2324.
[7] Deep, Big, Simple Neural Nets for Handwritten Digit Recognition / Dan Claudiu Cire§an, Ueli Meier, Luca Maria Gambardella [и др.] // Neural Computation. 2010. Dec. Т. 22, № 12. с. 3207-3220. URL: http://dx.doi.org/10.1162/NECO_a_00052.
[8] Flexible, High Performance Convolutional Neural Networks for Image Classification. / Dan Ciresan, Ueli Meier, Jonathan Masci [и др.] // International Joint Conference on Artificial Intelligence IJCAI-2011. 2011. 07. С.1237-1242.
[9] Kessy Agnan, Lewin Alex, Strimmer Korbinian. Optimal Whitening and Decorrelation // The American Statistician. 2018. Jan. Т. 72, № 4. с. 309-314. URL: http://dx.doi.org/10.1080/00031305.2016.1277159.
[10] Brunner Clemens. Whitening with PCA and ZCA. 2015. URL: https://cbrnr.github.io/posts/whitening-pca-zca/.
[11] Krizhevsky Alex. Learning Multiple Layers of Features from Tiny Images // University of Toronto. 2012. 05.
[12] Pal Kuntal, Sudeep K. Preprocessing for image classification by convolutional neural networks. 2016. 05. С. 1778-1781.
[13] Backpropagation Applied to Handwritten Zip Code Recognition / Y. LeCun,
B. Boser, J. S. Denker [и др.] // Neural Computation. 1989. Т. 1, № 4.
C. 541-551.
[14] Aphex34. Типовая архитектура свёрточной нейронной сети. CC BY-SA 4.0. URL: https://commons.wikimedia.org/w/index.php?curid=45679374.
[15] Abadi Martin, Agarwal Ashish, Barham Paul [и др.]. TensorFlow: Large-Scale Machine Learning on Heterogeneous Systems. 2015. Software available from tensorflow.org. URL: https://www.tensorflow.org/.
[16] Kingma Diederik P., Ba Jimmy. Adam: A Method for Stochastic Optimization. 2017.