Journal of Korea Robotics Society
[ ARTICLE ]
The Journal of Korea Robotics Society - Vol. 18, No. 1, pp.122-126
ISSN: 1975-6291 (Print) 2287-3961 (Online)
Print publication date 28 Feb 2023
Received 31 Oct 2022 Revised 10 Dec 2022 Accepted 12 Dec 2022
DOI: https://doi.org/10.7746/jkros.2023.18.1.122

폐색 이미지 분류를 위한 강건한 가중치 전환 학습

김정훈1 ; 유제광2 ; 박성식
The Robust Weight Conversion Learning for Classification of Occlusion Images
Jeonghoon Kim1 ; Jeh-Kwang Ryu2 ; Seongsik Park
1Graduate Student, Artificial Intelligence, Dongguk University, Seoul, Korea 2021120407@dgu.ac.kr
2Assistant Professor, Co-Corresponding author: Physical Education, Dongguk University, Seoul, Korea ryujk@dongguk.edu

Correspondence to: Assistant Professor, Corresponding author: School of AI Convergence, Dongguk University, Seoul, Korea ( s.park@dgu.edu)

CopyrightⓒKROS

Abstract

An unexpected occlusion in a real life, not in a laboratory, can be more fatal to neural networks than expected. In addition, it is virtually impossible to create a network that learns all the environmental changes as well as occlusions. Therefore, we propose an alternative approach in which the architecture and number of parameters remain unchanged while adapting to occlusion circumstances. Learning method with the term Conversion Learning classifies them more robustly by converting the weights from various occlusion situations. The experiments on MNIST dataset showed a 3.07 [%p] performance improvement over the baseline CNN model in a situation where most objects are occluded and unknowing what occlusion will appear in advance. The experimental results suggest that Conversion Learning is an efficient method to respond to environmental changes such as occluded images.

Keywords:

Occlusion Images, Weight Conversion, Dataset Shift

1. 서 론

이미지 분류 문제에 있어서 폐색(Occlusion)은 오래된 문제이면서도 아직까지 풀어야 할 숙제로 남아있다. 대부분의 데이터 세트와 달리, 현실 세계의 이미지 분류는 다양한 폐색에 직면할 수 있다. 일부 데이터 세트에서 높은 분류성능을 보이더라도 모델이 집중하는 특징이 가려지면 기존 이미지 분류성능을 보장할 수 없다.

실생활에서의 폐색의 형태는 매우 다양하여 사전에 모든 가능성을 고려하는 것은 사실상 불가능하다. 만일 이전에 학습한 폐색 이미지와 다른 형태가 나타날 경우, 기존에 학습되었던 모델은 심각한 분류성능 저하를 보일 수 있다. 따라서, 기존에 학습하지 못했던 폐색을 지속적으로 학습하여 이후에 나타나는 예상하지 못한 폐색에 대응해 나가는 학습 방법이 필요하다.

분류하고자 하는 대상의 일부라도 가려질 경우 분류성능 저하를 보이는 것은 사람과 달리 모델이 대상의 전체적인 특징에 의존하여 학습하기 때문이라고 볼 수 있다. 이를 극복하기 위하여 다양한 폐색의 형태를 미리 학습하는 방법이 있지만, 현실에서의 폐색 형태는 매우 다양하여 이를 모두 증강(Augmentation)하여 사용하기 어려울 뿐 아니라 효율적이지도 않다. 모델 관점에서는 폐색을 생성하여 폐색되지 않은 이미지와 함께 학습할 경우, 그에 따른 학습 시간 증가를 피할 수 없다[1]. 이에 따라 모델 구조는 폐색된 이미지를 학습하기 위해 복잡해지고 구조 변경으로 인한 비효율성이 나타날 수 있다.

이러한 문제를 해결하기 위하여 본 연구에서는 Conversion Learning을 제안한다. Conversion Learning은 기존 모델 구조를 동일하게 유지하면서도 모델 파라미터 수의 증가 없이 파라미터를 전환하여 보다 강건한 학습을 진행할 수 있는 방법이다. 이와 관련하여 모델을 최대한 복잡하지 않게 만드는데 초점을 맞췄다. 왜냐하면 모델이 복잡하고 정교해질 수록 폐색 등 환경적인 변화에 더 적응이 어렵기 때문이다.

Conversion Learning 방법은 세 가지 주요 단계로 구성된다.

  • ⦁동일한 데이터 세트에서 서로 다른 환경의 이미지들을 학습한 모델들을 준비
  • ⦁학습된 가중치를 전환하는 경우를 탐색하여 원하는 모델로 가중치 전환
  • ⦁가중치가 전환된 모델의 평가 및 환경적 변화를 고려한 최적의 모델 선택

2. 관련 연구

2.1 증강된 폐색 이미지들을 학습 데이터로 이용하는 연구

최근 여러 연구에서 폐색 이미지에 의한 모델의 성능저하를 줄이는 시도가 계속되고 있다. 이를 위한 접근 방식 중 데이터 셋 영역에서 접근하는 방식은 폐색 이미지를 생성한 후 기존 이미지와 함께 학습하는 방법에 관한 연구들이다[2-6].

Yolo v4[2]는 다양한 형태의 폐색 이미지를 증강하여 사용하였으며, Random erasing[3]은 크기가 서로 다른 사각형의 폐색을 활용하여 증강에 사용하였다. 구체적으로 이미지 영역을 임의의 값 또는 훈련 세트의 평균 픽셀 값으로 바꾸는 데이터 증대 기술이며, 일반적으로 삭제된 이미지의 비율과 삭제된 영역의 종횡비를 변경하여 구현한다. 효과로는 특징 다각화 및 overfitting 방지가 있다. Cutout[4]는 학습 중에 정사각형 영역이 폐색되고, CNN의 첫 번째 레이어에서만 숨겨지며, 픽셀 값이 일정하게 폐색된다. Hide-and-Seek[5]은 주요한 특징만을 학습하는 것을 방지하기 위해 활성화된 영역에 마스크를 적용하여 주변 특징을 학습하도록 하였다. 이미지를 S x S 패치 그리드로 나누고 약간의 확률로 각 패치를 숨긴다. 이를 통해 모델은 객체의 한 부분이 어떻게 생겼는지 학습하지 않고 다른 특징을 통해 객체를 분류할 수 있어 overfitting 방지에 도움이 된다. Grid mask[6]은 기존 넓은 영역의 폐색으로 인하여 대상을 인식하지 못하는 현상을 방지하기 위해 다양한 비율의 Grid 모양의 폐색 형태를 이용하여 학습하였다.

한편, 두 샘플을 섞는 논문들 중 특히 원래의 이미지의 일부에 다른 이미지를 섞을 때 파라미터가 활성화된 영역만을 랜덤 이미지와 섞어 학습하는 연구[7]가 있다.

2.2 특징 벡터의 차이를 이용하는 연구

폐색 이미지를 처리하는 방법 중 학습기반 특징은 다양한 폐색 상황에서 더 유연하다[8]. 특징 벡터 영역에서 생성된 폐색 이미지와 원래의 이미지 쌍의 특징 벡터 차이를 학습하는 방법에 관한 논문[9]은 단순한 차이에 의해 폐색된 부분을 사용하지 않는 방법이기 때문에 폐색된 부분이 커질수록 분류성능이 저하될 수 있다.

여기서 더 나아가 특징 벡터 차이를 모델링한 후 생성하여 학습하는 연구[10]는 생성된 벡터와 현실에서의 예상치 못한 폐색이 상당한 차이를 보일 수밖에 없다.

폐색에 강건한 모델을 만들기 위한 노력은 계속되고 있지만, 이와 같은 연구들은 이미지 증강에 의한 많은 자원을 필요로 한다. 효과적인 증강 방법과 증강을 적용하는 시기를 탐색한 연구[1]에서는 증강 적용으로 인하여 학습해야 할 양이 많아져 training time이 크게 증가하였다. 하지만, 본 연구에서는 이미 학습된 파라미터 전환하는 방법으로 폐색 상황에 대응할 수 있는 학습 방법을 제안한다.


3. 제안 방법

모델 구조나 파라미터 변경없이 폐색에 강건해지기 위해서 폐색된 이미지를 학습한 모델의 파라미터를 원하는 모델로 전환한다. 이는 효율적으로 폐색된 이미지를 학습한 파라미터를 다른 모델로 전환할 수 있으며, 이를 통해 다양한 폐색에 의한 성능저하를 줄일 수 있다.

[Fig. 1]은 전체적인 학습방법의 개념도이다. 파라미터 전환은 크게 3단계로 이루어진다. 원하는 모델과 폐색된 이미지를 학습한 모델이 각각 요구되는 1단계, 학습한 모델의 파라미터 중 일부를 전환하는 2단계, 전환 후 평가에 의해 전환하게 될 파라미터를 선택하는 3단계이다.

[Fig. 1]

Conceptual diagram of the proposed Conversion Learning method

한편, 전이학습(Transfer Learning)의 경우 이전에 학습하였던 파라미터를 고정하고 모델의 일부 파라미터를 원하는 데이터 셋에 맞게 재학습하는 반면, 제안 방법은 같은 데이터 셋에서 폐색 등 환경적 변화에 적응하기 위해 이미 학습된 모델들의 파라미터를 원하는 모델에 주입하기 때문에 그 활용이 다르다.

제안하는 방법을 통해 얻게 되는 장점은 원하는 모델의 분류성능 저하 없이 추가적인 폐색상황에 대응할 수 있는 파라미터를 타 모델들로부터 원하는 모델이 공급받을 수 있다는 점이다. 이는 파라미터를 주입할 때 분류 성능 평가에 의하여 평가 결과가 분류성능의 유지 또는 향상인 경우에만 파라미터를 전환할 수 있으므로 환경변화를 학습한 모델이 있다면 기존 모델을 재학습없이 개선할 수 있는 효과적인 방법이 된다.

[Fig. 2]에서 제안하는 방법의 알고리즘 예에서는 y (label)이 생략되었다. 데이터 셋 DXtrr,XtsrD에 occlusion을 적용 Xtro,Xtso하여, 이를 학습한 모델 Mm, 그리고 Xtrr를 학습한 모델 Mr의 학습된 파라미터는 각각 Wm, Wr이다. 이 모델들은 구조가 같으며 layer의 수 N도 같다. Test accuracy가 ACC일 때, MrXtsrXtso로 각각 평가한 분류 성능은 ACCrr,ACCro이다.

[Fig. 2]

Algorithm of the proposed Conversion Learning

C(N, i)는 set 내의 object 수 N, 몇 개의 object를 선택 i 하는지에 대한 조합(combination)의 경우의 수이다. For loop에서 Mr의 학습된 파라미터 WriWmi을 전환(Conversion) 후 XtsrXtso로 각각 평가한 분류 성능 ACCtr,ACCto을 평균한 ACCt는 평가의 기준이 된다. 이중 가장 분류 성능이 높은 값의 인덱스 i에 해당하는 파라미터 WmiMr에 전환한 모델 Mc의 학습 방법에 관한 알고리즘이다.

본 연구의 실험에서는 제안하는 알고리즘에 의해 파라미터 수를 유지한 모델의 성능향상이 가능한지 확인해 본다.


4. 실험 및 결과

4.1 The Datasets and settings

실험에서 사용한 두 가지 데이터 셋 MNIST[11]와 CIFAR10[12]은 분류 문제에서 사용되는 벤치마크 데이터 셋으로 널리 알려져 있다. [Fig. 3]에서는 3가지 폐색 형태(Cross Line (CL), Upper Bar (UB), Middle Box (MB))를 가정하고 제안하는 학습 방법을 실험하였다.

[Fig. 3]

The original images and three occlusion type images

MNIST[11] 데이터셋에서 사용하는 CNN 모델은 Tensorflow Sequential 모델을 사용하였다. 구체적으로 Conv 2D, MaxPooling 2D, Conv 2D, Flatten, Dense, and SoftMax로 구성된 모델이다. Optimizer는 Adam[13]을 사용하였다.

CIFAR10[12] 데이터셋에서 사용하는 CNN 모델은 Conv 2D, ReLU (Rectified Linear Unit), Conv 2D, ReLU, MaxPooling 2D, Dropout, Conv 2D, ReLU, Conv 2D, ReLU, MaxPooling 2D, Dropout, Flatten, Dense, ReLU, Dropout, and SoftMax로 구성되었다. Optimizer는 RMSProp[14] (gradient descent algorithm with momentum)을 사용하였다.

Baseline CNN 모델과 제안하는 모델을 비교하기 위해 사용한 평가 방법은 다음과 같다. Train set은 원래의 이미지들로 동일하고, Test set은 원래의 이미지들과 폐색된 이미지들 각각 두가지로 구성하여 두 Test set의 분류 정확도 평균(ACCt, Average accuracy [%])으로 정의하였다. 이를 제안 모델과 Baseline 모델의 평균 분류 정확도 차이(DAA, Difference Average Accuracy of Mc, Mr)를 통해 분류 정확도 향상 정도를 평가한다.

4.2 Having the prior knowledge of occlusion in MNIST

4.2.1 Convolution weight layer

먼저 제안 방법이 효과가 있는 지 확인하기 위해, 폐색된 형태를 알고 있지만 폐색 이미지들을 학습하지 못한 경우를 가정한 실험을 진행하였다. 즉, 직접적으로 학습 데이터 셋에 폐색 이미지를 포함시킨 것이 아닌, 제안하는 가중치 Conversion Learning을 통해 폐색이 학습되지 않은 모델에서의 성능 변화를 평가하였다.

[Fig. 4]은 폐색 형태가 한 가지와 두 가지일 때 Conversion Learning 적용 시 분류성능 향상정도를 확인한 것이다. 폐색 형태가 두 가지인 경우([Fig. 4] right)는 각각의 폐색 형태에 대해 학습한 서로 다른 두 개의 타모델들로부터(ex, Mmk=1, Mmk=2) 순차적으로 원하는 모델(Mr)로 파라미터(Wmki*)을 주입하여 실험하였다. 예를 들어, 전환되는 2개의 weight layers인 경우 각 하나의 폐색형태를 할당하여 탐색한 후 절반(h) 씩 전환하였다(ex, Wmk=1i*, Wmk=2i*, Mr[Wr[1:h] = Wmk=1i*], Mr[Wr[h:end] = Wmk = 2i*]).

[Fig. 4]

Comparison between the conversion and baseline models in the type (left: an occlusion, right: two occlusions) of occlusions

한편, 폐색 형태가 한 가지인 경우 test set은 raw 이미지와 한 가지 폐색 형태로 구성되어 두 분류 성능을 평균하는데, 폐색 형태가 두 가지인 경우에는 test set의 이미지 수를 각각의 폐색 형태 0.5 비율로 생성하여 그 합이 1이 되도록 하여 평가하였다. 폐색 상황이 심해질수록 분류성능이 눈에 띄게 저하된다.

한 가지 폐색 형태에서는([Fig. 4] left) 가장 많이 폐색된 MB 폐색에서 가장적은 분류 향상을 보였지만, 나머지 두 상황에서는 상당한 개선을 보였다. 두 가지 폐색일 때는([Fig. 4] right) 다소 향상 정도가 줄어들었지만 여전히 성능 개선을 보였다.

[Fig. 4]의 left, right 각각 방법에 대한 평균 분류성능 향상 정도(DAA)는 7.91, 3.04 [%p]이다.

4.2.2 Dense weight layer

Convolution layer에 이어 이번에는 Dense layer에서 보다 작은 단위의 가중치 전환이 가능한지 확인해 보았다. Dense layer weight matrix의 행과 열로 각각 실험하였는데 Convolution layer과 마찬가지로 분류성능 향상을 보였다.

[Fig. 5]는 Dense layer weight matrix의 행 과 열 각각을 누적하여 전환하였을 때의 결과이다. Convolution layer 뿐만 아니라 Dense layer에서도 전환학습에 의한 분류성능 향상이 확인되었으며, 전환되는 파라미터가 증가될수록 분류성능이 향상되는 경향을 보인다. 전환된 Dense layer parameter matrix의 행보다 열에서 분류성능이 더 향상된 것을 확인하였다.

[Fig. 5]

Variation of classification performance by rows (green), columns (red) of parameters converted to existed model at UB

4.3 Lack of a prior knowledge of occlusion in MNIST

폐색된 형태를 미리 아는 경우는 드물다고 할 수 있다. 따라서, 이번에는 폐색의 형태를 거의 알지 못한 경우에서 제안 방법을 평가한다. 예를 들어 제안된 방법으로 UB가 전환된 모델(UB 이미지를 학습한 모델의 파라미터가 원하는 모델로 전환된 모델)이 MB 이미지들의 Test set으로 평가될 때 분류 정확도를 Baseline CNN 모델과 비교하였다. 그 결과 DAA가 1.51 [%p] 향상되었다.

이를 확장하여 행 별로 UB 형태의 폐색된 이미지들을(ex [j, :]) 각각 학습한 28개 모델들(Mmk = 1:28) 모두를 원하는 하나의 모델(Mr)로 전환한 후 MB Test set을 이용하여 평가하였을 때 DAA가 3.07 [%p] 향상되었다.

따라서, 실험 결과로 미루어 보아 폐색의 형태를 사전에 거의 알지 못한 경우에도 전환학습을 통해 보다 강건한 모델이 될 수 있음을 확인하였다.

4.4 Conversion learning in CIFAR10

여기에서는 비교 모델로 증강된(Augmented) 이미지들을 학습한 CNN 모델을 사용하였다. 이 모델에서도 폐색 이미지에 의한 분류성능 저하를 확인할 수 있었지만 많은 증강 이미지들이 학습되었기 때문에 파라미터 전환에 의한 분류성능 향상 공간이 많지 않았다고 볼 수 있다.

이에 따라, 사전에 폐색 형태를 알고 있는 경우 일부 조건에서 약간의 성능 향상을 확인하였다(Each a DAA UB, MB, and CL: 0.05, 0.27, -0.26 [%p]). 이는 증강 순서에 있어서 폐색된 상황의 우선순위에 따라 효과도 줄어든다고 볼 수 있다.


5. 결 론

본 연구에서는 다양한 폐색 상황에서 적응할 수 있는 모델을 만들기 위한 방법을 제안하였다. 구체적으로 각각의 서로 다른 모델들의 파라미터를 원하는 하나의 모델로 전환하는 방법에 관한 것이다. 이 방법을 통해 모델의 구조나 파라미터의 증가 없이 모델을 보다 강건하게 할 수 있다.

이는 폐색 상황 외에도 다양한 분야에 적용할 수 있는데 예를 들어 자연적, 시간적, 공간적 변화 등 환경적 변화에 의한 모델의 성능저하를 줄일 수 있다.

하지만 본 연구에서 제안하는 방법은 일종의 학습과정(평가)에 포함되어 inference time에는 영향을 미치지 않는다. 전환학습 과정에서 computational cost를 줄이기 위해서는 모든 경우의 수를 탐색하기 보다 예를 들어 전환할 파라미터의 layer를 2개로 고정하여 전환할 경우 baseline 보다 향상된 분류 성능을 빠르게 찾을 수 있을 것이다.

후속 연구로 분류성능 향상과 관련된 파라미터를 선별적으로 선택하여 파라미터 전환효과를 높이는 방법의 탐색이 필요하다.

Acknowledgments

This research was supported by the MSIT (Ministry of Science, ICT), Korea, under the High-Potential Individuals Global Training Program) (RS-2022-00155054) supervised by the IITP (Institute for Information & Communications Technology Planning & Evaluation). Following are results of a study on the “Leaders in INdustry-university Cooperation 3.0” Project, supported by the Ministry of Education and National Research Foundation of Korea

References

  • S. O’Gara and K. McGuinness, “Comparing data augmentation strategies for deep image classification,” IMVIP 2019: Irish Machine Vision and Image Processing (IMVIP), Dublin, Ireland, 2019. [https://doi.org/10.21427/148b-ar75]
  • A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Op-timal speed and accuracy of object detection,” Computer Vision and Pattern Recognition, 2020. [https://doi.org/10.48550/arXiv.2004.10934]
  • Z. Zhong, L. Zheng, G. Kang, S. Li, and Y. Yang, “Random erasing data augmentation,” AAAI Conference on Artificial Intelligence, vol. 34, no. 7, 2020. [https://doi.org/10.1609/aaai.v34i07.7000]
  • T. DeVries and G. W. Taylor, “Improved regularization of convolutional neural networks with cutout,” Computer Vision and Pattern Recognition, 2017. [https://doi.org/10.48550/arXiv.1708.04552]
  • K. K. Singh and Y. J. Lee, “Hide-and-seek: Forcing a network to be meticulous for weakly-supervised object and action localization,” International Conference on Computer Vision (ICCV), Venice, Italy, 2017. [https://doi.org/10.1109/ICCV.2017.381]
  • P. Chen, S. Liu, H. Zhao, and J. Jia, “Gridmask data augmentation,” Computer Vision and Pattern Recognition, 2020. [https://doi.org/10.48550/arXiv.2001.04086]
  • D. Walawalkar, Z. Shen, Z. Liu, and M. Savvides, “Attentive cutmix: An enhanced data augmentation approach for deep learning based image classification,” Computer Vision and Pattern Recognition, 2020. [https://doi.org/10.1109/ICASSP40776.2020.9053994]
  • D. Zeng, R. Veldhuis, and L. Spreeuwers, “A survey of face recognition techniques under occlusion,” IET biometrics, vol. 10, no. 6, pp. 581-606, 2021. [https://doi.org/10.1049/bme2.12029]
  • L. Song, D. Gong, Z. Li, C. Liu, and W. Liu, “Occlusion robust face recognition based on mask learning with pairwise differential Siamese network,” International Conference on Computer Vision (ICCV), 2019. [https://doi.org/10.1109/ICCV.2019.00086]
  • F. Cen, X. Zhao, W. Li, and G. Wang, “Deep feature augmentation for occluded image classification,” Pattern Recognition, vol. 111, 2021. [https://doi.org/10.1016/j.patcog.2020.107737]
  • Y. LeCun, C. Cortes, and C. J. C. Burges, “The mnist database of handwritten digits,” THE MNIST DATABASE, 1998, [Online], http://yann.lecun.com/exdb/mnist/, , Accessed: Jan. 04, 2021.
  • A. Krizhevsky, “Learning multiple layers of features from tiny images,” 2009, [Online], http://www.cs.utoronto.ca/~kriz/learning-features-2009-TR.pdf, .
  • D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” 2014, Machine Learning. [https://doi.org/10.48550/arXiv.1412.6980]
  • T. Tieleman and G. Hinton, “Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude,” COURSERA: Neural networks for machine learning, vol. 4, no. 2, pp. 26-31, 2012, [Online], https://www.coursera.org/lecture/deep-neural-network/rmsprop-BhJlm/, , Accessed: Feb. 20, 2021.
김 정 훈

2002~2009 인하대학교 전자공학과(학사)

2009~2011 ㈜실리콘웍스 연구원

2013~2015 ㈜윕스 연구원

2019~2022 동국대학교 연구원

2021~현재 동국대학교 인공지능학과(석사)

관심분야: Continual Learning, Computer Vision, Biosignal, Dataset Shift

유 제 광

1996~2000 서울대학교 체육교육과(학사)

2000~2002 서울대학교 체육교육과(석사)

2005~2013 서울대학교 체육교육과(박사)

2013~2019 서울대학교 인지과학연구소 연구원, 연구교수

2019~현재 동국대학교 체육교육과 조교수

관심분야: Human level AI, Cognitive Neuroscience, Computational neuromotor control

박 성 식

2010 서울대학교 기계항공공학부(학사)

2019 POSTECH 기계공학과(박사)

2019~2020 KIST 지능로봇연구단 Post-doc.

2020~현재 동국대학교 AI융합학부 조교수

관심분야: 생체신호, 동작인식, 유연로봇, 컴퓨터비전

[Fig. 1]

[Fig. 1]
Conceptual diagram of the proposed Conversion Learning method

[Fig. 2]

[Fig. 2]
Algorithm of the proposed Conversion Learning

[Fig. 3]

[Fig. 3]
The original images and three occlusion type images

[Fig. 4]

[Fig. 4]
Comparison between the conversion and baseline models in the type (left: an occlusion, right: two occlusions) of occlusions

[Fig. 5]

[Fig. 5]
Variation of classification performance by rows (green), columns (red) of parameters converted to existed model at UB