
열화상 이미지를 활용한 Gaussian Splatting 기반의 저조도 3D 렌더링 개선 방법
CopyrightⓒKROS
Abstract
Realistic 3D rendering and viewpoint synthesis have become essential in industries such as robotics, healthcare. The development of techniques like NeRF and Gaussian Splatting has greatly advanced rendering capabilities. However, their performance is satisfactory only under ideal conditions, such as perfect lighting and the absence of occlusions, which are rarely encountered in real-world scenarios. To address this limitation, we propose the integration of thermal imaging sensors into Gaussian Splatting. Thermal imaging, which captures infrared radiation emitted by objects, offers robustness in low-light and occluded environments. Additionally, we introduce a thermal mapping process combined with a keyframe selection method that accounts for non-uniformity correction, effectively extracting feature points from low-texture and noisy thermal images, thereby enhancing structure-from-motion outcomes. Experimental results demonstrate that our proposed approach outperforms existing methods under challenging lighting conditions, improving the accuracy of 3D rendering across various techniques.
Keywords:
3D Rendering, Viewpoint Synthesis, Thermal Image, Gaussian Splatting, Nerf1. 서 론
사실적인 3D 재구성과 시점 합성 기술은 건축[1], 의료[2], 로보틱스[3] 등 다양한 산업에서 높은 시각적 정확성과 몰입감을 제공하여 필수 도구로 자리잡았으며, 그 중요성을 인정받아 관련 연구가 활발히 진행되고 있다[4].
사실적인 3D 재구성과 시점 합성 분야는 신경 방사형 필드(NeRF)[5]의 등장으로 새로운 패러다임을 맞이했다. NeRF는 신경망을 활용해 3D 장면을 암시적으로 표현하는 기법으로, 특정 객체나 장면을 다양한 시점에서 촬영한 데이터를 바탕으로 새로운 시점에서의 이미지를 생성한다. NeRF는 높은 렌더링 품질을 제공하지만, 모든 공간의 세밀한 표현을 위해 상당한 계산 비용이 요구되며, 훈련과 렌더링 시간이 느리다는 한계가 있다[6].
NeRF의 한계를 개선한 Gaussian Splatting[6]은 3D 장면을 명시적으로 표현하는 방법으로, 3D 공간 내의 포인트 클라우드를 가우시안 분포로 표현하여 계산 효율성을 크게 향상시켰다. 이러한 접근 방식은 NeRF가 암시적 표현을 통해 모든 공간을 세밀하게 표현하려는 것과 달리, 오직 포인트 클라우드에 대해서만 학습을 진행하여 빠른 렌더링 속도를 제공한다.
NeRF와 Gaussian Splatting의 사실적인 3D 재구성과 시점 합성 기술은 여러 산업에서 널리 이용되고 있지만, 가시광 이미지만으로는 야간 감시, 재난 현장, 조명 변화가 심한 환경에서의 활용에 한계가 있다. 이러한 환경 간섭에도 강인하게 3D 재구성 및 시점 합성을 하기 위한 연구가 필요하다. 현실 세계는 [Fig. 1]과 같은 다양한 환경을 포함하며, 이는 가시광 이미지의 품질을 저하시켜 재구성 실패를 초래하거나 렌더링 품질을 떨어트릴 수 있다. 반면, 열화상 이미지는 조명 및 날씨 제약없이 강인하게 촬영할 수 있어 안개가 낀 환경이나 저조도 환경에서도 시점 합성이 가능하게 한다. 따라서 열화상 이미지를 활용한 새로운 시점 합성 기술은 큰 잠재력을 가지고 있으며, 관련 연구가 활발히 이루어지고 있다[8-10].
![[Fig. 1] [Fig. 1]](/xml/44011/JKROS_2025_v20n1_104_f001.jpg)
Top : RGB image, Bottom : Thermal image[7] : Within the box, the RGB image cannot accurately detect objects due to obstructions like lighting or fog, while the thermal image robustly detects objects in the same environment
지난 2020년에 등장한 NeRF 기반의 3D 재구성 분야에서는 도전적인 환경에서 한계를 극복하기 위한 다양한 기법을 적용하거나 열화상 이미지를 사용하는 연구들이 진행되고 있다[8-13]. 하지만 최근 등장한 Gaussian Splatting 분야에서는 아직 이러한 환경에 대한 연구가 아직 충분히 이루어지지 않고 있다[14].
우리는 앞서 언급한 환경 제약을 극복하기 위해 열화상 기반의 Gaussian Splatting을 제안한다. 열화상 카메라는 열 적외선을 감지하여 환경 제약이 있는 객체도 잘 식별할 수 있다는 장점이 있어, 최근 3D 재구성 분야에서 이를 적용하려는 연구가 활발히 이루어지고 있다[8-10]. 그러나 열화상 이미지는 RGB 이미지와 다르게 적은 질감, 잡음, Non-Uniformity Correction (NUC)와 같은 고유한 특성을 가지고 있다. 이는 프레임 간의 일관성을 떨어트려 Structure-from-motion (SfM)[15]과정에서 카메라의 정확한 포즈 추정에 어려움을 초래할 수 있다.
우리는 이러한 열화상 이미지의 특성을 고려하여 SfM의 성능을 향상시키기 위한 열화상 데이터 변환과 NUC를 고려한 키프레임 선택법을 제안한다. 제안 방법은 열화상 데이터 변환을 통해 열 일관성을 유지하고 적은 질감과 잡음을 포함하는 열화상 이미지에서 안정적으로 특징을 추출하며, 시퀀스 데이터에서 NUC를 감지하고 필터링하여 최적의 키프레임을 선택함으로써 SfM 결과를 향상시킨다.
이러한 접근의 유효성을 검증하기 위해 여러 실험을 진행한 결과, 제안 방법은 기존 보다 개선된 성능을 보여주었다. 최종적으로, 저조도 환경에서 기존 Gaussian Splatting과 비교했을 때, 제안한 방법이 더 높은 품질의 렌더링 성능을 제공함을 확인할 수 있었다.
2. 관련 연구
2.1 Gaussian Splatting
Gaussian Splatting은 SfM으로 생성된 희소한 포인트 클라우드를 가우시안 형태로 초기화 한 후, 3D 가우시안의 매개변수인 불투명도, 이방성 공분산 및 구면 조화 계수를 최적화하여 고품질의 새로운 시점 합성을 할 수 있는다. 이러한 매개변수들은 각 가우시안이 이미지 평면으로 투영될 때 최적의 이미지 품질을 얻도록 조정된다. 투영된 2D 가우시안을 미분 가능한 타일 래스터라이저를 통해 렌더링하여, 각 가우시안을 학습하고, 이 학습 과정에서 얻은 정보를 활용해 3D 가우시안 매개변수를 업데이트하여 최적화한다. 이때 가우시안의 색상을 표현하기 위해 구면 조화 계수를 활용하는데, 각 가우시안이 구 표면에서 고도각과 방위각에 따라 색상을 다르게 가지도록 조정함으로써 사실적인 색상 표현을 가능하게 하여 고품질의 이미지를 생성할 수 있도록 한다.
2.2 NeRF와 열화상 이미지의 결합
Gaussian Splatting보다 먼저 등장한 NeRF는 열화상 이미지와 결합을 위한 연구가 더 빠르게 진행되었다[8-10]. Thermo NeRF[8]는 NeRF 기반의 다중 모달 접근 방식을 사용하여 장면의 RGB와 열화상 뷰를 동시에 렌더링할 수 있으며, 적은 질감 문제를 열화상 이미지의 대응하는 RGB 이미지를 함께 학습하는 방식으로 해결하였다.
ThermalNeRF[9]는 열화상 이미지에서 SfM의 어려움을 해결하기 위해 RGB 및 열화상 이미지의 교차 보정을 통하여 카메라의 자세를 추정한다. 또한 RGB와 열화상의 빛의 파장에 따른 밀도를 고려하는 NeRF 모델을 제안하여 저조도 환경을 극복했다. 이러한 연구들은 열화상 이미지를 3D 표현 기법과 결합하여 새로운 시점에서 이미지를 성공적으로 생성할 수 있음을 보여주었지만, 여전히 열화상 이미지에 대응되는 RGB 이미지가 필요하다는 한계가 존재한다.
이런 문제를 해결하기 위해 제안된 Thermal-NeRF[10]는 열화상 이미지만을 사용하여 NeRF를 실행하는 첫 번째 방법이다. 열화상 이미지의 특성을 바탕으로 열 데이터변환과 열 제약을 적용해 이미지의 구조적 일관성을 고려하여, RGB 기반에서 실패하는 시각적으로 저하된 장면에서도 NeRF를 복원할 수 있다. 그러나 NeRF의 암시적 표현과 느린 렌더링 속도는 실제 응용에 제약이 따른다.
2.3 Gaussian Splatting과 열화상 이미지의 결합
Gaussian Splatting은 NeRF의 느린 렌더링 속도를 개선한 방법으로, 비교적 최근에 등장하여 열화상 이미지와 결합하는 연구는 아직 초기 단계에 있다. 최근 발표된 ThermalGaussian[14]은 최초로 열화상 3D Gaussian Splatting을 도입하여, RGB와 열화상 이미지를 동시에 렌더링하는 다중 모달 접근 방식을 제안했다. 이 연구는 RGB 및 열화상 이미지를 이용한 SfM 전략과 새로운 손실 함수를 적용하여, 기존 Gaussian Splatting보다 더 우수한 RGB 이미지의 렌더링 품질을 달성했으며, 열화상 이미지의 렌더링도 가능하다는 점을 입증했다.
ThermalGaussian은 Gaussian Splatting을 열화상 이미지와 결합하여 새로운 시점을 렌더링할 수 있다는 가능성을 보여주었지만, 여전히 열화상 이미지를 처리하기 위해 대응되는 RGB 이미지가 필요하다는 한계가 있다. 또한, 열화상 카메라의 고유한 특성인 NUC가 실행되면 셔터의 닫힘으로 손상된 이미지가 저장되며, NUC가 끝나 셔터가 다시 열리는 시점부터 다음 장면에 대한 저장이 재개된다[16]. 이러한 이미지 품질 저하 및 저장의 간헐적 끊김은 SfM 실행 중 삼각 측량 오류를 일으켜 렌더링 품질 저하의 요인이 될 수 있지만, 기존 연구들은 NUC에 대해 고려하지 않는다는 한계가 있다.
3. 본 론
우리의 목표는 열 데이터 변환과 NUC를 고려한 키프레임 선택법을 이용해 열화상 이미지 기반의 Gaussian Splatting을 진행하는 것이며 [Fig. 2]에서 확인 가능하다. 첫 번째 섹션에서는 열화상 이미지를 기반으로 SfM을 위한 특징점 추출에 사용된 열 데이터 변환 방법을 설명한다. 두 번째 섹션에서는 열화상 이미지의 특성을 반영한 키프레임 선택 방법을 다룬다.
![[Fig. 2] [Fig. 2]](/xml/44011/JKROS_2025_v20n1_104_f002.jpg)
We propose a method for performing Gaussian Splatting using thermal data as input. To achieve this, we enhance the visual quality of images through thermal mapping and select keyframes based on the distance between frames using the homography matrix H. Subsequently, we perform SfM with the selected keyframes and proceed with Gaussian Splatting
3.1 열 데이터 변환
열화상 이미지는 관찰 대상과 그 주변에서 방출되는 적외선 복사를 시각화한 것으로, 일반적인 비디오 카메라로 촬영된 이미지와 크게 다르다. 열화상 카메라는 기존의 8비트 이미지와 달리 열 데이터를 포함하는 16비트의 단일 채널로 구성되어 있으며, 이미지 대비가 낮아 해석이 어려운 경우가 많다[17,18]. 이러한 특성 때문에 전통적인 특징 검출 및 매칭 방법을 적용하는데 어려움이 있다. 따라서, 열화상 이미지에서 기존의 비전 알고리즘을 적용하기 위해서는 열화상 데이터 특성에 적합한 전처리 과정이 필요하다.
우리는 16비트 시퀀스 이미지에 min-max scaling을 적용하여 이미지의 열 일관성을 보장하고, 16비트 형식을 8비트 형식으로 변환하여 시각화를 더욱 용이하게 하였다. 변환 식은 아래와 같다.
(1) |
여기서 T8(p)는 픽셀 p에서의 열화상 값을 8비트로 변환한 값이며, T16(p)는 픽셀 p에서의 16비트 열화상 값을 의미한다. Tmax는 전체 열화상 이미지 내의 최대 열화상 값이고, Tmin은 최소 열화상 값을 의미한다.
다음으로, 변환된 8비트 열화상 이미지에 상보 필터와 양방향 필터를 적용하였다. 상보 필터는 잡음 제거를 위한 저역 필터와 세부 정보를 강조하는 고역 필터를 결합하여 서로의 약점을 보완하도록 설계하였다.
양방향 필터는 공간적 거리와 픽셀 차이를 동시에 고려하는 필터링 기법으로, 열화상 이미지의 경계선은 강조하면서도 잡음을 효과적으로 제거한다. 양방향 필터는 다음 식으로 표현된다[19].
(2) |
여기서, Ip, Iq는 각각 위치 좌표 p, q의 픽셀 값을 나타내며, q는 필터 윈도우 S안에 위치한 이웃 픽셀의 위치 좌표를 의미한다. 는 위치적 유사성을 나타내는 가우시안 함수이며, 는 픽셀 사이의 밝기 차이를 반영한 가우시안 함수를 의미한다. 마지막으로, Wp는 정규화 상수를 의미한다.
이를 통해, 열화상 이미지에서 온도 변화가 급격히 나타나는 경계 부분을 선명하게 유지하면서, 잡음이 많은 부분은 부드럽게 처리하여 이미지 품질을 향상시킬 수 있다.
3.2 키프레임 선택법
시퀀스 이미지 데이터셋을 사용한 SfM은 이미지 간 카메라 기준선의 길이가 너무 짧거나 길면 삼각 측량 오류가 발생해 정확도에 부정적인 영향을 미칠 수 있다. 또한 시퀀스 데이터로 인해 처리 시간이 길어지는 문제가 있다[20]. 이를 해결하기 위해 카메라 기준선의 적절한 길이를 유지하는 키프레임을 선택하는 방법이 필요하다.
전통적인 키프레임 선택 방법은 Seo et al.[21]에서 제안된 대응 비율 Rc를 기준으로 삼는다. Rc는 두 프레임 간의 매칭된 특징점 수와 이미지에서 추출된 총 특징 수 사이의 비율을 사용한다. 비율이 1에 가까우면 이미지가 많이 겹치고 베이스 라인이 짧다는 것을 의미하며, 이러한 가정하에 프레임들 사이에서 키프레임을 선택한다. 하지만 열화상 이미지는 적은 질감 특성으로 인해 이미지 전체에서 추출할 수 있는 특징점이 희소하고, 일정한 주기로 실행되는 NUC는 매칭되는 특징점에 부정적인 영향을 미칠 수 있다. 이러한 이유로 신뢰성 있는 대응을 산출하기 어렵게 되어, Rc를 열화상 이미지에 적용하는 것은 적절하지 않을 수 있다.
우리 키프레임 선택에 대한 Algorithm은 [Algorithm 1]에서 확인할 수 있다. [Algorithm 1]과 같이 초기 프레임을 키프레임으로 설정한 후, 다음 프레임과의 상대적 위치 변화를 계산하여 이동 변위가 일정 값 이상일 때, 다음 키프레임으로 선택하는 방법을 제안한다. 매칭의 신뢰성을 확보하기 위해 RANSAC 알고리즘을 적용하고, 두 이미지 간의 호모그래피 행렬을 사용하여 매칭된 키포인트 간의 상대적인 거리를 계산한다. 이후, 이 정보를 바탕으로 신뢰성 있는 키프레임을 선택한다.
이 방법은 RANSAC 알고리즘을 통해 부정확한 매칭을 걸러내며, 매칭된 특징점의 수가 적은 경우에도 정확한 키프레임을 선택할 수 있다. 또한 NUC로 인한 중복 및 손상된 이미지를 필터링하여 삼각 측량 오류를 최소화할 수 있다. 임계값 τ는 실험을 통해 가장 적은 재투영 오차를 보이는 13로 설정하였다.
4. 실 험
우리는 Multi Spectral Dataset[22]과 ViViD++[23]데이터셋을 사용하여 제안한 방법과 기존 Gaussian Splatting의 렌더링 성능을 저조도 환경에서 정량적으로 평가하여 비교하였다. 이때 제안 방법은 열화상 이미지를 입력으로 사용하며, 기존 Gaussian Splatting은 RGB 이미지를 입력으로 사용한다.
4.1 Dataset
실험에 사용한 Multi Spectral Dataset은 Handheld 기반의 표준 카메라, LWIR 카메라 및 Kinect2로 촬영한 RGB 이미지, 열화상 이미지, 깊이 이미지 등을 포함하고 있다. 실내/실외 환경에서 다양한 조명 조건을 기반으로 광범위한 시나리오를 제공한다. 또한 제안 방법의 신뢰성을 위해 SLAM을 위한 다양한 유형의 비전 센서를 지원하는 ViViD++를 이용해 추가 실험을 진행하였다. 그 중, Multi Spectral Dataset에서는 desk2-halfsphere-ic와 outdoor-night2에서 렌더링 품질을 비교하고 평가하였다. deks2-halfshere-ic는 급격한 조명 변화가 있는 시나리오로, 밀폐된 실내에서 조명을 주기적으로 켜고 끄는 환경을 포함한다. outdoor-night2는 밤에 촬영한 건물 내외를 포함하고 있는 환경이다. ViViD++의 outdoor-robust-night2는 밤에 촬영한 건물 주위를 걷는 시나리오를 포함하고 있는 환경이다.
4.2 Evaluation
열화상 이미지에 대해 열 데이터 변환을 적용한 후, 각 단계별로 결과를 분석하였다. 우리는 원본 열화상 이미지, min-max scaling만 적용한 결과, 그리고 양방향 및 상보 필터를 추가로 적용한 결과를 확인하고자 한다.
[Fig. 3]에서, 각 단계별 이미지로 동일한 특징점 추출 알고리즘을 적용하여 추출된 특징점의 수와 위치를 비교하였다. [Fig. 3(a)]는 원본 열화상 이미지로 특징점이 전혀 추출되지 않은 것을 확인할 수 있다. [Fig. 3(b)]는 [Fig. 3(a)] 보다 시각적인 개선은 있었으나, 여전히 대비가 약하고 잡음이 존재하여 제한적인 영역에서만 특징점이 추출되었다. 반면 [Fig. 3(c)]는 잡음이 효과적으로 제거되면서도 경계선 정보가 보존되어, 경계선 주변에서 더 많은 특징이 추출되었다. 이를 통해, 우리의 열 데이터 변환 방법은 열화상 이미지의 전반적인 품질을 향상시키고 보다 안정적으로 특징점을 검출할 수 있다.
본 실험에서는 우리의 키프레임 선택법과 Seo et al. 방법의 성능을 SfM 결과를 통해 비교하고, 각 방법이 열화상 이미지에서 얼마나 정확하게 키프레임을 선택하는지 평가한다. 두 방법으로 시퀀스 데이터에서 키프레임을 선택한 후, SfM 알고리즘을 수행하여 등록된 이미지 수, 3D 포인트 개수, 재투영 오차 등을 통해 SfM 정확도를 평가하여 성능을 정리하였다. 비교 결과는 [Table 1]과 [Fig. 4]에서 확인할 수 있으며, 실험에 사용한 데이터 셋은 desk2-halfsphere-ic 이다.
[Fig. 4(a)]와 [Fig. 4(b)]는 우리의 방법과 Seo et al.를 통해 선택한 키프레임으로 SfM을 수행한 결과이다. 이때 키프레임 선택법 외의 다른 조건은 동일하게 진행하였다. 제안 방법은 Seo et al. 방법에 비해 더 많은 이미지가 SfM에 사용되었으며, 포인트 클라우드 양도 더 많은 것을 확인할 수 있다. 정량적 비교는 [Table 1]에서 확인할 수 있으며 우리의 방법이 재투영 오차가 더 낮고, 등록된 3D 포인트 개수가 더 많은 것을 확인할 수 있다. 매칭된 특징점 수에 따라 기준선을 예측하는 Seo et al. 방식은 열화상 이미지의 잡음, 적은 질감 등의 특성으로 인해 키프레임을 적절하게 선별하지 못해 SfM에 모든 프레임을 사용하지 못했다.
[Fig. 5]는 outdoor-night2 데이터셋 일부분에서 NUC 실행 시점과 선택된 키프레임들을 시각적으로 보여준다. 검은 점은 프레임, 노란 점은 NUC로 인해 손상 및 중복된 이미지들을 의미한다. 우리의 방법은 빨간 직선이며, NUC 구간의 이미지들을 피하여 프레임을 선택하는 것을 확인할 수 있다.
최종적으로, 제안 방법과 기존 Gaussian Splatting의 렌더링 품질을 위에서 소개한 세 가지 데이터 셋에 대해 L1 loss, SSIM[24], PSNR을 사용하여 정량적으로 평가한다. 이때 outdoor-night2는 저조도 환경에서 실험을 진행하기 위해 일부 구간만을 사용하여 평가하였다.
실험 결과는 [Table 2]에서 확인 할 수 있으며, 기존 방법은 3DGS로 표기하였다. 다양한 조명 환경에서 우리의 방법과 기존 방법을 비교하였을 때, 두 데이터셋 모두에서 우리의 방법이 더 우수한 성능을 보였다. [Table 2]의 desk2-halfshere-ic에서 기존 방법은 조명 변화가 심한 환경에서 잡음이 많이 발생하는 반면, 제안 방법은 이러한 문제를 효과적으로 개선한 것을 PSNR 지표를 통해 확인할 수 있다. outdoor-night2에서 기존 Gaussian Splatting 방법은 저조도 환경으로 인하여 SfM에서 두 장의 이미지만 포즈 추정이 가능했으며, 완전한 3D 복원이 이루어지지 않았다. 실험을 통해 우리의 방법이 저조도 RGB 이미지 기반의 가우시안 스플래팅 보다 여러 정량적인 지표에서 더 높은 성능을 보이는 것을 확인할 수 있다.
첫 번째 시나리오인 [Fig. 6(a)]는 주기적인 조명 변화가 포함된 환경으로, 우리의 방법은 급격한 조명 변화에도 불구하고 안정적인 렌더링 결과를 보여준다. 반면, 기존 Gaussian Splatting은 이러한 조명 변화에 적응하지 못해 심각한 품질 저하가 발생한 것을 확인할 수 있다. 두 번째 시나리오인 [Fig. 6(b)]에서는, 기존 Gaussian Splatting 방법은 저조도 환경으로 객체가 제대로 식별되지 않는 반면, 우리의 방법은 열화상 이미지를 활용하여 안정적으로 도로와 차량을 식별하며 우수한 렌더링 결과를 보인다.
![[Fig. 6] [Fig. 6]](/xml/44011/JKROS_2025_v20n1_104_f006.jpg)
(a) and (b) are the deks2-halfshere-ic and outdoor-night2 datasets, respectively. the first and third columns represent the RGB image and thermal image used for training, respectively, while the second and fourth columns represent the images rendered using Gaussian Splatting based on low-light RGB and thermal images, respectively
outdoor-robust-night2 데이터셋을 사용한 기존 Gaussian Splatting과 제안 방법의 렌더링 성능은 [Table 3]에 정리 되어있다. outdoor-robust-night2는 조명이 포함된 저조도 환경으로, outdoor-night2 보다 정확한 SfM 결과를 얻을 수 있다. 이를 사용한 기존 방법과 제안 방법의 렌더링 성능을 비교한 결과, 제안 방법이 더 높은 성능을 보이는 것을 확인할 수 있다. 키프레임 선택을 위한 임계값 τ는 8로 설정하였다.
4.3 Ablation study
필터 구성의 유효성 및 키프레임 선택법의 유효성을 검증하기 위해, 단일 열화상 이미지에 대해 min-max scaling을 적용한 Gaussian Splatting과 최근 소개된 이미지 전처리 기법인 Gil et al.[25]를 적용한 Gaussian splatting을 우리의 방법과 비교한다. Gil et al.은 픽셀의 강도 값과 공간적 맥락을 모두 고려하여 열화상 이미지를 최소한의 정보 손실과 높은 가시성을 가지는 8비트 이미지를 생성한다. 또한 데이터셋을 4프레임 주기로 선택하여 실험에 사용할 이미지 수를 비슷하게 설정하였다. 실험에 사용한 데이터셋은 desk2-halfsphere-ic 이다.
[Table 4]은 위에서 언급한 두가지 방법과 우리의 방법을 SfM을 실행한 뒤 등록된 이미지, 포인트 클라우드 개수, 재투영 오차를 정리한 표이다. 단일 이미지에 대해 min-max scaling을 적용한 SfM은 동일한 온도 범위로 데이터 변환이 되지 않아 이미지 사이의 열 일관성을 고려하지 못해 이미지 등록과 포인트 클라우드 개수에서 다른 방법보다 적은 것을 확인할 수 있다. Gil et al.은 높은 가시성을 가져 많은 양의 포인트 클라우드를 얻을 수 있었지만, 잡음도 부각되어 재투영 오차가 다른 방법에 비해 높은 것을 확인할 수 있다. 우리의 방법은 비교적 Gil et al.보다 포인트 클라우드 개수는 적지만 제일 낮은 재투영 오차를 보여주었다.
[Fig. 7]과 [Table 5]는 위에서 얻은 SfM 결과를 사용해 렌더링한 이미지와 정량적 지표를 통해 비교한 결과를 보여준다. [Fig. 7]의 상단은 학습에 사용된 GT 이미지이며 하단은 렌더링된 이미지를 나타낸다. 이때 [Fig. 7(a)]와 [Fig. 7(b)]는 각각 단일 이미지에 대해 min-max scaling을 적용한 기법과 Git et al. 기반의 렌더링 이미지이며, [Fig. 7(c)]는 우리의 방법을 적용한 렌더링 이미지이다. [Fig. 7(a)]의 하단 이미지는 열 일관성을 고려하지 않아 여러 시점에서 동일한 공간의 픽셀 값이 다르게 나타나 가장자리에 블러 현상이 나타난 것을 보여준다. [Fig. 7(b)]의 하단 이미지는 열 일관성은 고려하면서 가시성을 향상시켰지만 잡음도 부각되어 이로 인한 고스트 현상이 나타난 것을 보여준다. 블러 및 고스트 현상은 이미지의 품질에 영향을 주어 [Table 5]의 정량적 지표에서 우리의 방법이 더 좋은 렌더링 품질을 보여주는 것을 확인했다.
![[Fig. 7] [Fig. 7]](/xml/44011/JKROS_2025_v20n1_104_f007.jpg)
Top is GT images and bottom is rendered images. (a) is a simple pixel processing method based 3DGS, (b) is the method by Gil et al. based 3DGS, and (c) is our method
5. 결 론
본 연구는 열화상 이미지를 Gaussian Splatting과 결합하여 저조도 환경에서의 렌더링 한계를 극복한다. 이를 위해, 우리는 열 데이터 변환 및 NUC를 고려한 키프레임 선택법을 제안했다. 실험 결과, 제안 방법이 기존 Gaussian Splatting에 비해 저조도 및 다양한 조명 환경에서 더 높은 렌더링 품질과 정확도를 제공하는 것을 확인하였다.
이를 통해, 본 연구는 열화상 이미지와 Gaussian Splatting의 결합으로 3D 재구성 분야에서 새로운 가능성을 보여주었다. 다만, 본 연구에서는 열화상 이미지에 대한 전처리 과정에 중점을 두어, Gaussian Splatting 자체에 대한 최적화는 충분히 고려하지 못했다는 한계가 있다. 따라서, 향후 연구에서는 Gaussian Splatting의 직접적인 개선을 위한 연구를 진행할 계획이다.
Acknowledgments
This work was supported bay the Technology Innovation Program (RS-2024-00445759, Development of Navigation Technology Utilizing Visual Information Based on Vision-Language Models for Understanding Dynamic Environments in Non-Learned Spaces) funded by the Ministry of Trade, Industry & Energy (MOTIE, korea), and by the Excellent researcher support project of Kwangwoon University in 2023.
References
-
E. Kwak, I. Detchev, A. Habib, M. El-Badry, and C. Hughes, “Precise photogrammetric reconstruction using model-based image fitting for 3D beam deformation monitoring,” Journal of Surveying Engineering, vol. 139, no. 3, pp. 143-155, Jul., 2013.
[https://doi.org/10.1061/(asce)su.1943-5428.0000105]
-
L. Humbert, J. A. De Guise, B. Aubert, B. Godbout, and W. Skalli, “3D reconstruction of the spine from biplanar X-rays using parametric models based on transversal and longitudinal inferences,” Medical engineering & physics, vol. 31, no. 6, pp. 681-687, Jul., 2009.
[https://doi.org/10.1016/j.medengphy.2009.01.003]
-
A. Rosinol, A. Violette, M. Abate, N. Hughes, Y. Chang, J. Shi, A. Gupta, and L. Carlone, “Kimera: From SLAM to spatial perception with 3D dynamic scene graphs,” The International Journal of Robotics Research, vol. 40, no. 12-14, pp. 1510-1546, Dec., 2021.
[https://doi.org/10.1177/02783649211056674]
-
Z. Ma and S. Liu, “A review of 3D reconstruction techniques in civil engineering and their applications,” Advanced Engineering Informatics, vol. 37, pp. 163-174, Aug., 2018.
[https://doi.org/10.1016/j.aei.2018.05.005]
-
B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, and R. Ng, “Nerf: Representing scenes as neural radiance fields for view synthesis,” Communications of the ACM, vol. 65, no. 1, pp. 99-106, Dec., 2021.
[https://doi.org/10.1145/3503250]
-
B. Kerbl, G. Kopanas, T. Leimkühler, and G. Drettakis, “3D Gaussian Splatting for Real-Time Radiance Field Rendering,” ACM Transactions on Graphics (TOG), vol. 42, no. 4, pp. 1-14, 2023.
[https://doi.org/10.1145/3592433]
-
X. Dai, X. Yuan, and X. Wei, ‘‘TIRNet: Object detection in thermal infrared images for autonomous driving,’’ International Journal of Speech Technology, vol. 51, no. 3, pp. 1244-1261, Mar., 2021.
[https://doi.org/10.1007/s10489-020-01882-2]
-
M. Hassan, F. Forest, O. Fink, and M. Mielle, “ThermoNeRF: Multimodal Neural Radiance Fields for Thermal Novel View Synthesis,” arXiv:2403.12154, 2024.
[https://doi.org/10.48550/arXiv.2403.12154]
-
Y. Y. Lin, X.-Y. Pan, S. Fridovich-Keil, and G. Wetzstein, “ThermalNeRF: Thermal Radiance Fields,” 2024 IEEE International Conference on Computational Photography (ICCP), Lausanne, Switzerland, pp. 1-12, 2024.
[https://doi.org/10.1109/iccp61108.2024.10644336]
-
T. Ye, Q. Wu, J. Deng, G. Liu, L. Liu, S. Xia, L. Pang, W. Yu, and L. Pei, “Thermal-NeRF: Neural Radiance Fields from an Infrared Camera,” arXiv:2403.10340, 2024.
[https://doi.org/10.48550/arXiv.2409.07200]
-
H. Wang, X. Xu, K. Xu, and R. W. H. Lau, “Lighting up nerf via unsupervised decomposition and enhancement,” 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, France, pp. 12598-12607, 2023.
[https://doi.org/10.1109/iccv51070.2023.01161]
-
Z. Cui, L. Gu, X. Sun, X. Ma, Y. Qiao, and T. Harada, “Aleth-NeRF: Low-light condition view synthesis with concealing fields,” The AAAI Conference on Artificial Intelligence, vol. 38, no. 2, pp. 1435-1444, 2023.
[https://doi.org/10.1609/aaai.v38i2.27908]
-
S. Ye, Z.-H. Dong, Y. Hu, Y.-H. Wen, and Y.-J. Liu, “Gaussian in the dark: Real-time view synthesis from inconsistent dark images using gaussian splatting,” Computer Graphics Forum, vol. 43, no. 7, Oct., 2024.
[https://doi.org/10.1111/cgf.15213]
-
R. Lu, H. Chen, Z. Zhu, Y. Qin, M. Lu, L. Zhang, C. Yan, and A. Xue, “ThermalGaussian: Thermal 3D Gaussian Splatting,” arXiv:2409.07200, 2024.
[https://doi.org/10.48550/arXiv.2409.07200]
-
J. L. Schonberger and J.-M. Frahm, “Structure-from-motion revisited,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, pp. 4104-4113, 2016.
[https://doi.org/10.1109/cvpr.2016.445]
-
Y. Wu, L. Wang, L. Zhang, Y. Bai, Y. Cai, S. Wang, and Y. Li, “Improving autonomous detection in dynamic environments with robust monocular thermal SLAM system,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 203, pp. 265-284, Sept., 2023.
[https://doi.org/10.1016/j.isprsjprs.2023.08.002]
-
J. Jiang, X. Chen, W. Dai, Z. Gao, and Y. Zhang, “Thermal-inertial SLAM for the environments with challenging illumination,” IEEE Robotics and Automation Letters, vol. 7, no. 4, pp. 8767-8774, Oct., 2022.
[https://doi.org/10.1109/lra.2022.3185385]
-
T. Sosnowski, G. Bieszczad, and H. Madura, “Image processing in thermal cameras,” Advanced technologies in practical applications for national security, vol. 106, pp. 35-57, Sept., 2017.
[https://doi.org/10.1007/978-3-319-64674-9_3]
-
C. Tomasi and R. Manduchi. “Bilateral filtering for gray and color images,” Sixth international conference on computer vision (IEEE Cat. No. 98CH36271), Bombay, India, pp. 839-846, 1998.
[https://doi.org/10.1109/iccv.1998.710815]
-
M. T. Ahmed, M. N. Dailey, J. L. Landabaso, and N. Herrero, “Robust Key Frame Extraction for 3D Reconstruction from Video Streams,” the International Conference on Computer Vision Theory and Applications, Angers, France, pp. 231-236, 2010.
[https://doi.org/10.5220/0002836902310236]
-
Y.-H. Seo, S.-H. Kim, K.-S. Doo, and J.-S. Choi, “Optimal keyframe selection algorithm for three-dimensional reconstruction in uncalibrated multiple images,” Society of Photo-Optical Instrumentation Engineers (SPOIE), vol. 47, no. 5, May, 2008.
[https://doi.org/10.1117/1.2919801]
-
W. Dai, Y. Zhang, S. Chen, D. Sun, and D. Kong, “A Multi-spectral Dataset for Evaluating Motion Estimation Systems,” 2021 IEEE International Conference on Robotics and Automation (ICRA), Xi’an, China, pp. 5560-5566, 2021.
[https://doi.org/10.1109/icra48506.2021.9561906]
-
A. J. Lee, Y. Cho, Y.-s. Shin, A. Kim, and H. Myung, “ViViD++: Vision for visibility dataset,” IEEE Robotics and Automation Letters, vol. 7, no. 3, pp. 6282-6289, Jul., 2022.
[https://doi.org/10.1109/lra.2022.3168335]
-
Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE transactions on image processing, vol. 13, no. 4, pp. 600-612, Apr., 2004.
[https://doi.org/10.1109/tip.2003.819861]
-
H. Gil, M.-H. Jeon, and A. Kim, “Fieldscale: Locality-Aware Field-Based Adaptive Rescaling for Thermal Infrared Image,” IEEE Robotics and Automation Letters, vol. 9, no. 7, pp. 6424-6431, Jul., 2024.
[https://doi.org/10.1109/lra.2024.3406054]
2022 동양미래대학교 자동화공학과(공학사)
2023~현재 광운대학교 로봇학과(석사과정)
관심분야: 3D 복원, SLAM, 비전 언어 모델
2022 광운대학교 로봇학부(공학사)
2023~현재 광운대학교 로봇학과(석사과정)
관심분야: SLAM, 자율주행, 인공지능, 3D 복원
2024 광운대학교 로봇학부(공학사)
2024~현재 광운대학교 로봇학과(석사과정)
관심분야: SLAM, 인공지능, 3D 복원, 멀티모달
2023 Mechanical Engineering, Udayana University(공학사)
2023~현재 광운대학교 로봇학과(석사과정)
관심분야: SLAM, 자율주행, 강화 학습, VLN
2012 서울대학교 전기공학부(공학사)
2014 서울대학교 전기‧컴퓨터공학부(공학석사)
2018 서울대학교 전기‧정보공학부(공학박사)
2018 삼성전자 삼성리서치 책임 연구원
2019 광운대학교 조교수
2024~현재 광운대학교 부교수
관심분야: 이동로봇, 자율주행, 인공지능, 멀티로봇