[ ARTICLE ]

The Journal of Korea Robotics Society - Vol. 20, No. 2, pp.226-235

ISSN: 1975-6291 (Print) 2287-3961 (Online)

Print publication date 30 May 2025

Received 14 Oct 2024 Revised 20 Nov 2024 Accepted 23 Nov 2024

DOI: https://doi.org/10.7746/jkros.2025.20.2.226

Edge feature를 고려한 RGB2TIR 변환 모델을 이용한 열화상 이미지 기반 Panoptic Segmentation

김상민¹

; 이동규²

; 김아영^†

Thermal Image – Based Panoptic Segmentation using RGB2TIR Translation Model Considering Edge Feature

Sangmin Kim¹

; Dongguw Lee²

; Ayoung Kim^†

1Undergraduate Student, Department of Mechanical Engineering, Seoul National University, Seoul, Korea ahrlrn2@snu.ac.kr
2Ph. D. Student, Department of Mechanical Engineering, Seoul National University, Seoul, Korea donkeymouse@snu.ac.kr

Correspondence to: ^†Associate Professor, Mechanical Engineering, Seoul National University, Seoul, Korea ( ayoungk@snu.ac.kr)

Abstract

In robotics and autonomous driving, accurately perceiving the environment is crucial for safety. Recent advances in panoptic segmentation, which can perform tasks such as object tracking and dynamic object removal within a single framework, are significantly enhancing the development of safer and more reliable robots and autonomous vehicles. However, most research has been limited to the RGB domain, which is vulnerable to poor lighting and adverse weather conditions. This paper proposes overcoming these limitations by introducing a robust thermal image-based panoptic segmentation model. More specifically, by leveraging RGB to thermal infrared image translation techniques, known as RGB2TIR GAN, we address the scarcity of thermal image datasets, enhancing the model’s performance in diverse environments. We also present a post-processing method aimed at preserving edge features, thereby improving the dataset quality and model accuracy. This study demonstrates the first successful application of thermal images for panoptic segmentation, highlighting the potential for expanding the model’s applicability across various environmental conditions and suggesting avenues for future research in domain-specific models.

Keywords:

Panoptic Segmentation, Thermal Image, Image Translation, Post-Processing, Edge Feature, Autonomous Driving

1. 서 론

로보틱스와 자율주행 분야에서 주변 환경을 인식하는 능력은 이용자 및 운전자의 안전에 매우 중요하다. 특히나 카메라를 이용해 촬영된 모든 물체를 정확히 식별하고 구분해야 하며 정확도가 떨어진다면 사고로 이어질 수 있다. 최근에는 panoptic segmentation 모델의 발전으로 주변 환경에 대해 다양한 정보를 얻을 수 있다^[1-4]. Panoptic segmentation은 동적 장애물과 배경의 class를 판별해 물체 추적과 semantic map construction이 가능하기에 visual SLAM에도 적용할 수 있어 인지 성능을 향상시키는 것뿐만 아니라, 더 안전하고 신뢰할 수 있는 로봇 및 자율주행 자동차 개발에 크게 기여한다^[5].

Panoptic segmentation이 상당한 관심을 받고 있음에도 불구하고, 연구는 주로 RGB domain 내에서 이루어졌다. RGB 이미지는 가장 흔히 사용되는 이미지이지만 야외환경에서 사용하기에는 열악한 조명과 기상 조건에 취약하다는 단점이 존재하여 환경이 변화하면 RGB 이미지를 이용해 학습한 모델의 성능이 현저히 저하된다. 이러한 한계 때문에 RGB 이미지를 이용하면 다양한 환경 조건에서 panoptic segmentation을 적용하지 못한다^[6].

RGB 이미지의 한계점을 극복하기 위하여 로보틱스 분야에서는 다양한 파장대에서 작동하는 센서들을 활용하였다^[6,7]. 이중에서도 [Fig. 1(a)]에서 보이는 바와 같이 열화상 카메라는 조도와 기상 조건에 민감하지 않다는 강점을 지니고 있어 RGB 이미지의 단점을 보완할 수 있다^[8]. 열화상 이미지의 활용성을 향상시키기 위해 열화상 이미지 또는 RGB 이미지와 열화상 이미지를 동시에 활용하여 학습한 물체 인식^[9,10] 및 semantic segmentation^[11-13], instance segmentation^[14] 모델이 연구되었다.

[Fig. 1]

(a) Comparison between RGB image and Thermal InfraRed (TIR) image: Two images from FLIR Thermal Dataset[16] are taken at the same position. (Left) RGB image does not have enough information to recognize objects at dark environment. (Right) TIR image is not affected by illumination and show clear objects (b) Result after applying RGB pretrained panoptic segmentation model at thermal image. The model cannot segment objects and background properly

열화상 이미지에서 semantic segmentation, depth estimation과 같은 geometric task에 대한 검증은 이루어졌지만 dense semantic task에 대해서는 검증이 이루어지지 않았다. Panoptic segmentation은 dense semantic task 중에서도 난이도가 높은 task이며 열화상 이미지에서 panoptic segmentation 연구는 아직 활발하지 않은 편이다. 열화상 이미지에 대해 panoptic annotation이 되어 있는 충분한 양의 데이터셋이 존재하지 않을 뿐더러 기존의 panoptic segmentation model은 RGB 기반의 모델이었기에 열화상 이미지에 적용하면 [Fig. 1(b)]와 같이 도메인 간의 차이로 인하여 성능 저하가 일어난다^[15]. 이러한 한계점 때문에 열화상 카메라를 사용할 때 panoptic segmentation을 적용하기 어렵다.

열화상 이미지로 이루어진 panoptic segmentation 데이터셋의 부재와 RGB, 열화상 이미지 domain의 차이에 의한 성능 저하는 이미지 변환 기술을 통해 해결할 수 있다. 현재도 이미지 변환 모델은 이미지 라벨이나 객체의 속성을 변경하여 데이터의 다양성을 증가시키는 데 범용적으로 사용되고 있다^[17-20]. 하지만 RGB 이미지의 특성을 보존한 RGB2TIR GAN^[21]을 이용하면 상대적으로 데이터 양이 풍부한 RGB 이미지 데이터셋을 이용해 열화상 이미지 데이터셋을 만들어낼 수 있다. 생성된 열화상 이미지를 데이터셋으로 활용하여 학습한 모델을 실제 열화상 이미지에 적용하기 위해서는 이미지 생성 과정에서 열화상 이미지의 특성 반영이 필수적이다. RGB2TIR GAN은 원본 이미지로부터 content vector와 열화상 이미지의 특성을 나타내는 style vector를 동시에 추출하여 원본 이미지 정보에 대한 손실을 최소화하고 edge consistency를 보장한다.

생성 모델을 통해 생성된 열화상 이미지는 고유한 style vector를 갖는다. 기존 연구에서는 생성된 열화상 이미지의 style vector를 비교하는 과정이 없기 때문에 생성된 이미지가 원본 이미지의 특성을 반영하는지 확인할 수 없다. 따라서, 생성된 이미지를 학습 데이터셋으로 활용하기에는 신빙성이 떨어진다. 본 논문에서는 원본 이미지와의 유사성을 비교하는 후처리 과정을 통해 생성된 열화상 이미지 데이터셋의 품질과 해당 데이터셋으로 학습할 panoptic segmentation model의 정확도를 높일 수 있다^[22]. Panoptic segmentation model의 성능을 높이기 위해서는 물체와 물체, 물체와 배경 간의 경계가 뚜렷해야 하므로 edge feature가 보존되는 것이 중요하다. 따라서 우리는 edge를 추출하는 Laplacian of Gaussian filter (LoG filter)와 이미지 사이의 semantic quality를 비교하는 Feature Similarity Index Measurement (FSIM)을 활용해 후처리를 진행해 panoptic segmentation model의 성능을 높이고자 했다.

본 연구에서 제안하는 논점은 다음과 같다.

- RGB 이미지의 단점을 보완하여 다양한 환경에서 dense semantic task를 수행할 수 있는 강건한 열화상 이미지 기반 panoptic segmentation 파이프라인을 제안했다.
- Panoptic segmentation task에 걸맞는 후처리 방법을 제시하여 데이터셋의 품질 및 panoptic segmentation 모델의 성능을 향상시켰다.
- 기존에 존재하지 않았던 panoptic 라벨링된 열화상 이미지 데이터셋을 생성하여 모델 학습에 적용했을 시 State of the Art 성능을 도출한 것을 확인하였다. 검증에 사용된 열화상 이미지 기반 panoptic segmentation 데이터셋은 향후 연구를 위해 공개할 예정이다.

2. 선행 연구 조사

2.1 Panoptic Segmentation

Panoptic segmentation은 semantic segmentation과 instance segmentation을 결합한 task다. Semantic segmentation은 [Fig. 2(a)]와 같이 픽셀 단위로 이미지를 분할하는 방법으로, 이미지의 각 픽셀이 어떤 객체 또는 배경에 해당하는지를 분류한다. 즉, 이미지에서 각 픽셀에 대해 레이블을 할당하는 task다.

[Fig. 2]

Example of segmentation tasks: (a) Semantic segmentation classify classes but no instance. (b) Instance segmentation classify each instance but not stuff classes. (c) Panoptic segmentation classify classes of each instance of objects[1]

Instance segmentation은 [Fig. 2(b)]와 같이 semantic segmentation과 비슷하게 이미지 내의 모든 객체를 픽셀 단위로 분할한다. 그러나 instance segmentation은 semantic segmentation과 달리 이미지 내의 각 객체를 개별적으로 식별한다. 따라서 instance segmentation은 이미지 내에서 각 객체의 경계를 정확하게 분리할 수 있다.

Panoptic segmentation은 [Fig. 2(c)]와 같이 이미지에서 인식 가능한 모든 객체의 픽셀을 분할하는 작업이다. 이때 분할된 픽셀은 객체 또는 배경 중 하나에 해당한다. 즉, Semantic segmentation의 결과에 추가로 객체를 식별하고 분할한다. 따라서 panoptic segmentation 은 semantic segmentation과 instance segmentation의 장점을 결합하여 객체에 대한 더 많은 정보를 제공한다^[1].

Panoptic segmentation의 대표적인 아키텍쳐로는 UPSNet, Panoptic-Deeplab, FPSNet 등이 있다^[2-4]. 그러나 이 모델들은 주로 RGB 이미지에 대해 학습되었기 때문에, 열화상 이미지에 적용할 경우 열화상 이미지 고유의 낮은 화질 및 카메라 잡음으로 인한 RGB 이미지와의 차이점 때문에 segmentation의 정확도가 떨어진다.

열화상 이미지를 활용한 물체 인식, semantic segmentation, instance segmentation 모델은 연구되었지만 panoptic segmentation보다 적은 정보를 제공한다. 본 연구에서는 RGB 이미지에 대한 기존의 panoptic segmentation 모델을 열화상 이미지로 확장하여, 열화상 이미지에서도 dense semantic task를 수행할 수 있도록 하고자 한다.

2.2 Image translation

RGB 이미지의 취약성을 보완하기 위해 이미지 변환은 다양하게 사용된다. RGB 이미지를 다른 domain으로 변환하거나 RGB 이미지를 다른 RGB 이미지로 변환하기도 한다. 널리 사용되는 이미지 변환 모델로는 Cycada^[17], CycleGAN^[18], pix2pix^[19] 등이 있지만 한계점이 존재한다. 기존의 이미지 생성 모델은 modality 차이가 적은 domain 간에서 학습되었다. RGB 이미지와 열화상 이미지 사이의 특성 차이는 크기 때문에 기존 RGB to RGB 이미지 변환모델을 열화상 이미지에 그대로 적용하기에는 어려움이 있다.

ToDayGAN^[23]는 domain 간 modality 차이를 최소화하기 위해 야간에서의 RGB 이미지의 취약점을 보완하고자 RGB 이미지에 대한 Night-to-Day translation을 수행한다. ToDayGAN은 추출된 feature에 대해 단일 discriminator를 사용하는 방식 때문에 변환 과정에서 이미지 품질이 저하되는 단점이 있다. 이러한 접근 방식은 변환의 품질을 저해하여, 최종 이미지의 활용 가능성을 제한한다.

Panoptic 정보를 기반으로 한 PanopticGAN^[24]은 이미지의 panoptic perception과 RoIAlign을 이용하여 panoptic-level에서 이미지를 다른 domain으로 변환시켜 domain 간의 modality 차이를 극복했다. 하지만 RGB 이미지에서 열화상 이미지로 변환한 결과가 없으며, 학습을 할 경우 매우 제한된 데이터를 가지고 있는 RGB-Thermal paired 학습 데이터가 필요하다는 한계점을 가지고 있다. 이는 열화상 이미지 데이터셋의 양이 충분하지 않기 때문에 발생하는 문제로 해석된다.

열화상 이미지 데이터셋의 부재는 열화상 이미지 domain에서의 segmentation task에도 영향을 끼친다. 열화상 이미지의 semantic segmentation을 수행하는 RTFNet^[11] 학습을 위해 RGB-Thermal image fusion이 필수적이다. RGB 이미지와 열화상 이미지를 완벽히 fusion하기 위해서는 동일한 위치와 방위에서 촬영한 2장의 사진이 필요하다. 하지만 열화상 카메라는 RGB 카메라보다 가격이 비싸며 완벽히 동일한 위치와 방위를 갖는 것이 불가능하다는 한계가 존재한다. EC-CNN^[12], FTNet^[13]의 경우, 열화상 이미지만으로 이루어진 SODA 데이터셋^[12]를 이용했다. 하지만 7,168장의 이미지 중 5,000장은 Cityscape 데이터셋을 pix2pixHD^[20]로 변환한 synthetic 데이터셋이다. pix2 pixHD는 원본 이미지의 edge feature를 고려하지 않아 생성된 열화상 이미지가 원본 이미지의 특성을 그대로 담지 못한다는 한계점이 있다. 그리고 semantic label만을 갖고 있기 때문에 panoptic segmentation에 활용할 수 없으며 데이터셋의 양도 공개된 RGB 데이터셋에 비해 부족하다.

반면, 본 연구에서 사용하고자 하는 RGB2TIR GAN은 multi-domain-based method인 MUNIT을 사용하여 다양한 latent vector에 대응되는 높은 품질의 열화상 이미지로의 변환이 가능하다. Encoder는 content encoder와 style encoder로 나뉘어져 있으며 각각의 encoder는 이미지로부터 latent content vector와 latent style vector를 disentangle한다. Content latent vector는 edge, outline 같은 기하학적인 feature에 대한 정보를 담고 있고 style latent vector는 픽셀의 색과 밝기에 관한 정보를 담고 있다. Decoder는 latent content vector와 latent style vector를 합하여 열화상 이미지를 만들어내므로 다양하면서 특징이 보존되는 변환이 가능하다. 특히, bi domain에서 deterministic function을 사용하는 경우, reference가 달라질 때 대응할 수 없는 문제를 해결할 수 있다. 또한, 시계열 데이터에 대해서 photometric consistency를 유지할 수 있기 때문에, SLAM과 같이 로보틱스에서 활용하는 인지 기술에서의 활용도가 높다.

3. 연구 방법

3.1 Overview

열화상 이미지를 이용한 panoptic segmentation을 시도한 연구는 전례를 찾아볼 수 없다. 또한 panoptic segmentation을 위해 라벨링된 열화상 이미지 공개 데이터셋도 존재하지 않는다. 따라서 데이터셋 생성 및 후처리가 선행되어야 한다. 첫 번째로 열화상 이미지 데이터셋 생성을 위해 RGB2TIR GAN을 사용하여 panoptic segmentation을 위해 라벨링된 RGB 이미지 데이터셋을 열화상 이미지로 변환한다. 두 번째로 변환된 열화상 이미지에 LoG filter를 적용한 후, FSIM을 측정하여 불확실성을 감소시킨다. 생성된 데이터셋과 Panoptic FPN architecture를 이용해 열화상 이미지 domain에서 panoptic segmentation 모델을 학습시킨다. 마지막으로 실제 열화상 이미지에 panoptic label을 추가하여 생성된 모델을 평가한다. 전체적인 파이프라인은 [Fig. 3]과 같다.

[Fig. 3]

Pipeline of image translation, post-processing, and training model. RGB2TIR GAN translates RGB images to thermal images applying encoded various style vectors. Generated thermal images are post-processed by LoG filter and FSIM to conserve edge features. Selected images are used at training Panoptic FPN

3.2 Post-Processing

RGB2TIR GAN은 여러 개의 latent style vector를 추출하여 각 vector 별로 이미지를 생성해낸다. 하나의 RGB 이미지에서 여러 개의 열화상 이미지가 생성되기 때문에 가장 신뢰도가 높은 열화상 이미지를 선택하는 후처리 과정이 필요하다. Segmentation task에서 segmentation quality를 높이기 위해서는 이미지에 있는 사물 및 배경이 명확하게 구분되어 있어야 하므로 edge feature가 명확해야 한다. 열화상 이미지는 RGB 이미지에 비해 해상도가 낮기 때문에 RGB 이미지에 비해 edge feature가 부족하다. 변환된 이미지 중 edge feature가 기존 RGB 이미지와 가장 유사한 이미지를 선택해야 해상도가 낮은 열화상 domain에서 RGB domain에서와 같은 segmentation quality를 갖는 모델을 학습할 수 있다.

따라서 각각의 latent style vector에 대해서 3*3 Laplacian filter와 5*5 Gaussian filter를 결합한 LoG filter를 RGB 이미지와 해당 이미지에서 생성된 열화상 이미지에 적용한 후, RGB 이미지와 열화상 이미지 사이의 FSIM을 비교했다. LoG filter는 이미지에서 edge를 추출하는 데 보편적으로 사용되는 filter다. FSIM^[25]은 두 이미지 간 phase congruency와 gradient magnitude를 기반으로 image quality를 비교하여 edge feature 보존 여부를 정확히 판단할 수 있다. 반면, image quality 평가에 보편적으로 사용되는 SSIM^[26]은 이미지의 structure를 이용하여 semantic information을 비교하지만 휘도, 대조에 영향을 받는다. 그러므로 RGB 이미지와 열화상 이미지처럼 domain 차이가 있는 두 이미지를 비교하기에는 적절치 않다. 따라서, LoG filter와 FSIM을 활용하면 edge feature가 가장 잘 보존된 latent style vector를 선별할 수 있다. 각 latent style vector별로 RGB, 열화상 이미지 쌍의 FSIM의 평균 값을 비교하여 가장 높은 FSIM이 나타난 latent style vector을 통해 생성된 열화상 이미지를 학습에 이용했다.

3.3 Panoptic FPN

Panoptic segmentation model 중 하나인 Panoptic Feature Pyramid Networks (Panoptic FPN)^[27]은 FPN backbone을 사용한 Mask R-CNN 아키텍쳐에 semantic segmentation branch를 더한 구조를 갖는다. FPN은 다양한 scale의 이미지에서 효과적으로 feature를 추출하기 위해 두 가지 핵심적인 아이디어를 사용한다.

첫 번째로, 다양한 scale의 이미지에서 feature map을 추출한다. CNN에서는 일반적으로 여러 번의 convolution을 거친 후, 마지막 layer에서 feature map을 추출한다. 그러나 이렇게 추출한 feature map은 주로 고해상도 feature만을 포함하기 때문에 semantically strong feature를 반영하지 못한다. 따라서 FPN은 다양한 scale의 이미지에서 feature를 추출하기 위해 다양한 layer에서 feature map을 추출한다. 본 논문에서는 pre-FPN backbone으로 pretrained ResNet50를 사용했다.

두 번째로, 다양한 scale의 feature map을 결합하여 최종적인 feature map을 생성한다. 다양한 scale의 image에서 feature map을 뽑아내면 다양한 해상도의 feature들을 반영할 수 있지만 나중에 추출되는 저해상도 feature를 고해상도 feature가 반영하지 못한다. 따라서 다양한 feature들을 연결시키며 모델의 성능을 향상시키기 위해서 고해상도 feature map을 down-sampling하여 저해상도 feature map과 결합한다. 이를 Top-down 방식이라고 하며, 저해상도 feature map에서 정보를 가져와서 고해상도 feature map에 추가한다. 그러므로 FPN backbone을 택함으로써 높은 해상도를 가지고 풍부한 multi-scale feature를 얻을 수 있다.

RGB 이미지보다 해상도가 낮은 열화상 이미지에서 panoptic segmentation을 위해서는 multi-scale feature가 필요하다. 따라서 Panoptic FPN은 열화상 이미지에 대한 panoptic segmentation 모델을 학습시키는 데 유용하다.

4. 실험 및 결과

4.1 Preparation

본 논문의 모델 학습에 필요한 열화상 이미지 데이터셋을 생성하기 위해 COCO 2017 데이터셋의 train images, val images, panoptic train/val annotations를 사용했다. COCO 2017 dataset은 train 이미지 118,287장, val 이미지 5,000장으로 구성되어 있다. Panoptic 라벨링은 사물을 의미하는 thing class 80개, 배경을 의미하는 stuff class 53개로 나뉘어 총 133개의 class로 구성되어 있다. 이 중, 도심 환경에서의 자율주행에 필수적으로 필요한 7개의 class를 [Table 1]과 같이 선별했다. 해당 class를 포함한 이미지만 RGB2TIR GAN을 활용해 열화상 이미지로 변환시켜 학습 데이터로 활용했다. 생성되는 style latent vector의 수는 20개로 하여 다양한 style의 이미지를 생성하도록 했다.

[Table 1]

Selected class for training model

모델 성능 평가를 위해서는 자체 라벨링한 열화상 이미지를 이용했다. Panoptic annotation이 제공되는 오픈소스 데이터셋이 부재하여 기존의 열화상 이미지에 panoptic 라벨링을 하였다. FLIR Thermal Dataset에서 제공되는 200장의 열화상 이미지에 대하여 panoptic 라벨링을 수행했다.

학습을 위해 GeForce RTX 2080 Ti 2개를 이용했고 batch size 2, max epoch 12로 설정했다. Optimizer로는 SGD를 사용했고 learning rate 0.02, momentum 0.9, weight decay 0.0001으로 설정했다. Learning rate scheduler를 사용하여 첫 500 iteration동안 learning rate을 선형적으로 증가시켰고 multi-step decay를 적용해 8, 11번째 epoch에서 decay factor 0.1로 learning rate를 감소시켰다.

4.2 Evaluation Metric

평가를 위해 사용한 평가 지표는 PQ, SQ, RQ다.

PQ (Panoptic Quality)는 panoptic segmentation의 전반적인 품질을 평가하는 지표로, 객체 인식의 정확성과 각 객체의 segmentation quality를 함께 고려하는 지표다. PQ는 아래와 같이 계산할 수 있다.

P Q = ∑ p, q ∈ T P I o U p, g T P + 12 F P + 12 F N

(1)

TP, FP, FN은 각각 true positive, false positive, false negative를 의미하여 IoU(p, g)는 예측한 segmentation과 ground truth segmentation 사이의 IoU를 뜻한다. 하나의 class에 대해 PQ는 SQ와 RQ의 곱으로 나타낼 수 있다.

SQ (Segmentation Quality)는 예측된 segmentation과 ground truth segmentation 간의 평균 IoU로, segmentation의 정확도를 나타낸다. True positive인 segment 간 겹치는 영역이 많을수록, 즉 segmentation을 정확히 할수록 SQ는 커진다. SQ는 아래와 같이 계산할 수 있다.

S Q = ∑ p, q ∈ T P I o U p, g T P

(2)

RQ (Recognition Quality)는 모델이 얼마나 잘 객체를 인식하고 구분하는지를 평가하는 지표로 true positive인 객체가 많을수록, 즉 객체를 정확한 class로 분류할수록 크다. RQ는 아래와 같이 계산할 수 있다.

R Q = T P T P + 12 F P + 12 F N

(3)

4.3 Comparison with RGB baseline

4.1의 과정을 통해 생성한 20개의 style vector에 대해 각각의 style vector를 통해 생성된 열화상 이미지에 5*5 Gaussian filter와 3*3 Laplacian filter를 합한 LoG filter를 적용한 후, 원본 RGB 이미지와 비교했을 때 가장 높은 FSIM score를 나타내는 이미지들을 이용해 모델을 학습시켰다. 열화상 이미지에 대한 SOTA panoptic segmentation 모델과 benchmark 데이터셋이 존재하지 않기 때문에 데이터셋 domain의 차이에 의한 모델 성능 차이를 검증하기 위해 COCO 데이터셋의 RGB 이미지로 학습한 Panoptic FPN 모델과의 성능을 비교하였다. RGB 이미지를 이용해 학습한 모델과 RGB2TIR GAN을 통해 생성한 이미지를 이용해 학습한 모델을 평가한 결과는 [Table 2], [Fig. 4(a)]와 같다.

[Table 2]

Evaluation of RGB baseline model and our model

[Fig. 4]

Panoptic segmentation visualization of hand-labeled thermal image dataset. Our proposed model segmented important details of thermal image (green boxes) compared to other methods (red boxes) especially for stuff. Moreover, our model recognized class properly segmented objects and background regardless of environment. (a) Comparison between RGB baseline, different image translation models, and ours (b) Comparison between different post-processing methods

PQ_all, SQ_all, RQ_all은 [Table 1]의 class의 평가 지표들을 평균낸 값이며 PQ_th, SQ_th, RQ_th와 PQ_st, SQ_st, RQ_st는 각각 [Table 1]의 thing과 stuff 클래스의 평가 지표들의 평균이다.

RGB2TIR translation과 post-processing을 거친 이미지로 학습한 모델이 RGB 이미지로만 학습된 모델과 비교하여 뛰어난 성능을 보이는 것을 확인하였다. 특히, stuff class에서는 PQ_st, SQ_st, RQ_st가 각각 +14.1, +2.7, +21.4 향상되었고 전체 class에 대해서도 PQ_all, SQ_all, RQ_all가 각각 +7.4, +1.4, +11.5 향상되었다. [Fig. 4(a)]에서 볼 수 있다시피 RGB baseline 모델은 배경에 대해 semantic mask를 부정확하게 형성하지만 본 모델은 배경을 세부적인 semantic information까지 고려하여 정확하게 segmentation한다.

4.4 Comparison between image translation method

제안한 방법론의 타당성을 검증하기 위해 이미지 변환 방법을 바꾸며 모델의 성능을 평가했다. 후처리는 LoG filter와 FSIM을 활용하였다. 생성 모델을 달리하며 학습한 모델의 성능은 [Table 3], [Fig. 4(a)]와 같다.

[Table 3]

Evaluation of model trained using different generative model

CycleGAN, UNIT을 사용한 경우, [Table 2]의 RGB baseline을 사용했을 때보다 성능이 떨어졌다. 이는 CycleGAN, UNIT은 RGB와 열화상 domain의 차이를 반영하지 못한다는 것을 나타낸다. 반면, 본 논문에서 사용한 RGB2TIR GAN을 활용했을 때는 PQ, SQ, RQ가 전반적으로 향상된 것은 사용한 생성 모델이 열화상 domain의 특징을 반영하여 이미지를 생성함을 나타낸다. [Fig. 4(a)]에서 CycleGAN과 UNIT을 이용해 생성한 열화상 이미지로 학습한 모델을 사용하면 stuff가 segmentation되지 않거나 segmentation 영역이 실제 이미지와 차이를 보이는 모습을 확인할 수 있다. 특히, UNIT을 이용했을 때는 도로와 나무를 segmentation하지 못하는 경향을 보인다. 하지만 RGB2 TIR GAN을 사용하였을 때는 thing과 stuff 모두 원본 이미지의 edge를 따라 정확하게 segmentation되는 모습을 볼 수 있다.

[Fig. 5]을 통해 CycleGAN과 UNIT이 정성적으로도 열화상 이미지의 특성을 고려하여 이미지를 생성하지 않음을 알 수 있다. CycleGAN으로 생성한 이미지는 전체적으로 흐리고 일정한 무늬가 형성되며 UNIT으로 생성한 이미지는 물체 간의 온도 대비가 명확하게 나타나지 않는다. 하지만 RGB2TIR GAN을 통해 생성된 이미지는 가장 선명하고 온도 대비가 뚜렷하게 나타난다.

[Fig. 5]

Comparison between generated thermal image using different translation model. Images generated by RGB2TIR GAN best preserves characteristic of thermal image and the temperature contrast is most clearly shown

4.5 Comparison between post-processing method

LoG filter와 FSIM을 활용한 후처리 방법 외 보편적으로 사용되는 후처리 과정을 사용해 모델을 학습시켜 성능을 비교한 결과는 [Table 4], [Fig. 4(b)]와 같다.

[Table 4]

Evaluation of model trained using different post-processing method

LoG filter를 사용하여 후처리한 이미지들을 학습에 이용한 모델이 LoG filter를 사용하지 않고 후처리한 이미지들에 비해 좋은 성능을 보인다. LoG filter와 FSIM을 이용해 후처리한 모델은 다른 후처리 방식에 비해 PQ_all, SQ_all, RQ_all, PQ_st, SQ_st, RQ_st가 높게 나타난다. [Fig. 4(b)]에서도 LoG와 FSIM을 사용했을 때, 세부적인 정보까지 인식하여 segmentation함을 볼 수 있다. 이는 LoG filter와 FSIM을 이용해 원본 이미지의 edge feature를 보존한 것이 모델의 성능을 향상시킨다는 것을 의미한다.

[Fig. 6]를 통해 LoG filter를 적용했을 때가 적용하지 않았을 때보다 생성된 이미지의 물체 간 edge가 더 잘 보존된다는 것을 확인할 수 있다. 그리고 FSIM을 사용하였을 때가 SSIM을 사용했을 때보다 edge feature가 더 잘 보존되어 나타나는 것을 확인할 수 있다.

[Fig. 6]

Comparison between thermal images generated by different post-processing method. Contrast of temperature is clearer when LoG filter is applied than when it is not. Also chosen image using FSIM include more detail features than image chosen using SSIM

5. 결 론

본 논문은 조도와 기상 환경에 민감한 RGB 이미지 대신 환경에 민감하지 않은 열화상 이미지를 사용하여 dense semantic task 중에서도 난이도가 높은 panoptic segmentation을 수행할 수 있는 파이프라인을 최초로 제안했다. RGB2TIR GAN을 통해 열화상 이미지 데이터셋 부재를 해결했고 학습된 모델에 적용했을 때, RGB 이미지나 다른 생성 모델을 이용해 생성된 열화상 이미지를 이용해 학습한 모델보다 뛰어난 성능을 보였다. RGB baseline 모델에 비해 전체 class PQ의 평균이 약 30% 높았고 stuff class PQ의 평균은 약 64% 향상됐다. 정성적으로도 semantic information을 더 정확히 인지함을 확인하였다. 또한, 열화상 domain에서의 panoptic segmentation 성능 향상을 위해 LoG filter와 FSIM을 이용하여 edge feature를 보존하는 후처리 방법을 선택하여 해당 방법론의 유효성을 검증하고 데이터셋의 품질과 모델의 성능을 향상시켰다.

본 연구는 다양한 환경에서 강건하게 사용 가능한 열화상 이미지를 이용해 dense semantic task 중에서도 난이도가 높은 panoptic segmentation을 수행했고 기존 모델보다 높은 성능을 보여주었다는 의의가 있다. 이는 여러 변수가 존재하는 로보틱스의 인지 분야에서 열화상 이미지를 이용해 다량의 정보를 얻을 수 있다는 점을 암시한다. 향후 도심 환경 뿐 아니라 실내, 거주 환경에서도 적용할 수 있도록 다양한 데이터셋을 변환하여 학습함으로써 모델의 범용성을 높일 수 있을 것이다. 그리고 모델 아키텍쳐를 바꾸어 열화상 domain에 특화된 panoptic segmentation 모델을 만드는 연구가 후행되어야 한다.

Acknowledgments

This work is supported by the Korea Agency for Infrastructure Technology Advancement (KAIA) grant funded by the Ministry of Land, Infrastructure and Transport (Grant RS-2023-00250727) through the Korea Floating Infrastructure Research Center at Seoul National University.

References

A. Kirillov, K. He, R. Girshick, C. Rother, and P. Dollar, “Panoptic Segmentation,” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, pp. 9404-9413, 2019. [https://doi.org/10.1109/CVPR.2019.00963]
Y. Xiong, R. Liao, H. Zhao, R. Hu, M. Bai, E. Yumer, and R. Urtasun, “UPSNet: A Unified Panoptic Segmentation Network,” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, pp. 8810-8818, 2019. [https://doi.org/10.1109/CVPR.2019.00902]
B. Cheng, M. D. Collins, Y. Zhu, T. Liu, T. S. Huang, H. Adam, and L.-C. Chen, “Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, pp. 12472-12482, 2020. [https://doi.org/10.1109/CVPR42600.2020.01249]
D. de Geus, P. Meletis, and G. Dubbelman, “Fast Panoptic Segmentation Network,” IEEE Robotics and Automation Letters, vol. 5, no. 2, pp. 1742-1749, Apr., 2020. [https://doi.org/10.1109/LRA.2020.2969919]
H. Zhu, C. Yao, Z. Zhu, Z. Liu, and Z. Jia, “Fusing Panoptic Segmentation and Geometry Information for Robust Visual SLAM in Dynamic Environments,” 2022 IEEE International Conference on Automation Science and Engineering (CASE), Mexico City, Mexico, pp. 1648-1653, 2022. [https://doi.org/10.1109/CASE49997.2022.9926478]
W. Chamorro, J. Solà, and J. Andrade-Cetto, “Event-Based Line SLAM in Real-Time,” IEEE Robotics and Automation Letters, vol. 7, no. 3, pp. 8146-8153, Jul., 2022. [https://doi.org/10.1109/LRA.2022.3187266]
G. Kim, S. Yun, J. Kim, and A. Kim, “SC-LiDAR-SLAM: A Front-end Agnostic Versatile LiDAR SLAM System,” 2022 International Conference on Electronics, Information, and Communication (ICEIC), Jeju, Republic of Korea, pp. 1-6, 2022. [https://doi.org/10.1109/ICEIC54506.2022.9748644]
C. Li, X. Liang, Y. Lu, N. Zhao, and J. Tang, “RGB-T object tracking: Benchmark and baseline,” Pattern Recognition, vol. 96, Dec., 2019. [https://doi.org/10.1016/j.patcog.2019.106977]
G. Batchuluun, J. K. Kang, D. T. Nguyen, T. D. Pham, M. Arsalan, and K. R. Park, “Deep Learning-Based Thermal Image Reconstruction and Object Detection,” IEEE Access, vol. 9, pp. 5951-5971, 2021. [https://doi.org/10.1109/ACCESS.2020.3048437]
M. Krišto, M. Ivasic-Kos, and M. Pobar, “Thermal Object Detection in Difficult Weather Conditions Using YOLO,” IEEE Access, vol. 8, pp. 125459-125476, 2020. [https://doi.org/10.1109/ACCESS.2020.3007481]
Y. Sun, W. Zuo, and M. Liu, “RTFNet: RGB-Thermal Fusion Network for Semantic Segmentation of Urban Scenes,” IEEE Robotics and Automation Letters, vol. 4, no. 3, pp. 2576-2583, Jul., 2019. [https://doi.org/10.1109/LRA.2019.2904733]
C. Li, W. Xia, Y. Yan, B. Luo, and J. Tang, “Segmenting Objects in Day and Night: Edge-Conditioned CNN for Thermal Image Semantic Segmentation,” IEEE Transactions on Neural Networks and Learning Systems, vol. 32, no. 7, pp. 3069-3082, Jul., 2021. [https://doi.org/10.1109/TNNLS.2020.3009373]
K. Panetta, K. M. Shreyas Kamath, S. Rajeev, and S. S. Agaian, “FTNet: Feature Transverse Network for Thermal Image Semantic Segmentation,” IEEE Access, vol. 9, pp. 145212-145227, 2021. [https://doi.org/10.1109/ACCESS.2021.3123066]
B. Wang, M. Dong, M. Ren, Z. Wu, C. Guo, T. Zhuang, O. Pischler, amd J. Xie, “Automatic Fault Diagnosis of Infrared Insulator Images Based on Image Instance Segmentation, and Temperature Analysis,” IEEE Transactions on Instrumentation and Measurement, vol. 69, no. 8, pp. 5345-5355, Aug., 2020. [https://doi.org/10.1109/TIM.2020.2965635]
M. P. Das, L. Matthies, and S. Daftry, “Online Photometric Calibration of Automatic Gain Thermal Infrared Cameras,” IEEE Robotics and Automation Letters, vol. 6, no. 2, pp. 2453-2460, Apr., 2021. [https://doi.org/10.1109/LRA.2021.3061401]
FREE Teledyne FLIR Thermal Dataset for Algorithm Training, [Online], https://www.flir.eu/oem/adas/adas-dataset-form, , Accessed: Mar. 21, 2024.
J. Hoffman, E. Tzeng, T. Park, J.-Y. Zhu, P. Isola, K. Saenko, A. Efros, and T. Darrell, “CyCADA: Cycle-Consistent Adversarial Domain Adaptation,” The 35th International Conference on Machine Learning, vol. 80, pp. 1989-1998, Jul., 2018, [Online], https://proceedings.mlr.press/v80/hoffman18a.html, .
J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks,” 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, pp. 2242-2251, 2017. [https://doi.org/10.1109/ICCV.2017.244]
P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks,” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, pp. 5967-5976, 2017. [https://doi.org/10.1109/CVPR.2017.632]
T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, A. Tao, J. Kautz, and B. Catanzaro, “High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, pp. 8798-8807, 2018. [https://doi.org/10.1109/CVPR.2018.00917]
D.-G. Lee, M.-H. Jeon, Y. Cho, and A. Kim, “Edge-guided Multi-domain RGB-to-TIR Image Translation for Training Vision Tasks with Challenging Labels,” 2023 IEEE International Conference on Robotics and Automation (ICRA), London, United Kingdom, pp. 8291-8298, 2023. [https://doi.org/10.1109/ICRA48891.2023.10161210]
M. Salvi, U. R. Acharya, F. Molinari, and K. M. Meiburger, “The impact of pre- and post-image processing techniques on deep learning frameworks: A comprehensive review for digital pathology image analysis,” Computers in Biology and Medicine, vol. 128, Jan., 2021. [https://doi.org/10.1016/j.compbiomed.2020.104129]
A. Anoosheh, T. Sattler, R. Timofte, M. Pollefeys, and L. V. Gool, “Night-to-Day Image Translation for Retrieval-based Localization,” 2019 International Conference on Robotics and Automation (ICRA), Montreal, QC, Canada, pp. 5958-5964, 2019. [https://doi.org/10.1109/ICRA.2019.8794387]
L. Zhang, P. Ratsamee, B. Wang, Z. Luo, Y. Uranishi, M. Higashida, and H. Takemura, “Panoptic-aware Image-to-Image Translation,” in 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, HI, USA, pp. 259-268, 2023. [https://doi.org/10.1109/WACV56688.2023.00034]
L. Zhang, L. Zhang, X. Mou, and D. Zhang, “FSIM: A Feature Similarity Index for Image Quality Assessment,” IEEE Transactions on Image Processing, vol. 20, no. 8, pp. 2378-2386, Aug., 2011. [https://doi.org/10.1109/TIP.2011.2109730]
Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600-612, Apr., 2004. [https://doi.org/10.1109/TIP.2003.819861]
A. Kirillov, R. Girshick, K. He, and P. Dollár, “Panoptic Feature Pyramid Networks,” 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, pp. 6392-6401, 2019. [https://doi.org/10.1109/CVPR.2019.00656]

김 상 민

2020~현재 서울대학교 기계공학부 학사과정

관심분야: Robotics, SLAM, Computer Vision

이 동 규

2019 브리스톨 대학교 전기전자공학과 학사

2022 한국과학기술원 로봇공학학제(석사)

2022~현재 서울대학교 기계공학부 박사 수료

관심분야: Robotics, SLAM, Computer Vision

김 아 영

2005 서울대학교 기계항공공학과(공학사)

2007 서울대학교 기계항공공학 전공(공학석사)

2012 미시간대학교 기계공학전공(공학박사)

2014~2021 한국과학기술원 건설 및 환경공학과 부교수

2021~현재 서울대학교 공과대학 기계공학부 부교수

관심분야: 영상 기반 SLAM

Category	Class
Thing	Person, Bicycle, Car
Stuff	Road, Tree-other-merged, Sky-other-merged, Building-other-merged

Trained model	RGB baseline	Ours
PQ_all	24.9	32.3
SQ_all	63.6	65.0
RQ_all	37.0	48.5
PQ_th	28.7	27.0
SQ_th	62.9	62.5
RQ_th	44.1	42.2
PQ_st	22.1	36.2
SQ_st	64.2	66.9
RQ_st	31.7	53.1

Generative model	CycleGAN	UNIT	Ours
PQ_all	21.6	10.1	32.3
SQ_all	63.6	52.3	65.0
RQ_all	33.5	16.6	48.5
PQ_th	20.6	12.9	27.0
SQ_th	62.6	59.9	62.5
RQ_th	32.1	21.5	42.2
PQ_st	22.4	8.1	36.2
SQ_st	64.4	46.5	66.9
RQ_st	34.6	13.0	53.1

Post-processing method	SSIM	FSIM	LoG + SSIM	LoG + FSIM (Ours)
PQ_all	24.5	26.9	30.0	32.3
SQ_all	63.2	64.5	64.5	65.0
RQ_all	38.4	41.4	45.9	48.5
PQ_th	19.2	25.2	28.3	27.0
SQ_th	61.3	63.1	62.2	62.5
RQ_th	31.3	39.8	44.8	42.2
PQ_st	28.4	28.1	31.3	36.2
SQ_st	64.6	65.6	66.2	66.9
RQ_st	43.7	42.6	46.8	53.1