[ ARTICLE ]

The Journal of Korea Robotics Society - Vol. 20, No. 2, pp.310-321

ISSN: 1975-6291 (Print) 2287-3961 (Online)

Print publication date 30 May 2025

Received 24 Oct 2024 Revised 22 Nov 2024 Accepted 30 Dec 2024

DOI: https://doi.org/10.7746/jkros.2025.20.2.310

수중 로봇을 위한 Vision Transformer 기반의 바이오파울링 이상탐지

장현수¹

; 이동규²

; 노세환³

; 강동완⁴

; 유선철⁵

; 김아영^†

Vision Transformer-based Biofouling Anomaly Detection for Underwater Robots

Hyunsoo Jang¹

; Dongguw Lee²

; Sehwan Rho³

; Dongwan Kang⁴

; Son-Cheol Yu⁵

; Ayoung Kim^†

1Masters Student, Interdisciplinary Program in Artificial Intelligence, Seoul National University, Seoul, Korea bronto3082@snu.ac.kr
2Ph. D. Candidate, Department of Mechanical Engineering, Seoul National University, Seoul, Korea donkeymouse@snu.ac.kr
3Ph.D Integrated Course, Department of Convergence IT Engineering, Pohang University of Science and Technology (POSTECH), Pohang 37673, Korea rhobot@postech.ac.kr
4Research Engineer, Advanced Technology Team, Hanwha Aerospace, Seoul, Korea dongwan.kang@hanwha.com
5Professor, Department of Convergence IT Engineering, Pohang University of Science and Technology (POSTECH), Pohang, Korea sncyu@postech.ac.kr

Correspondence to: ^†Associate Professor, Mechanical Engineering, Seoul National University, Seoul, Korea ( ayoungk@snu.ac.kr)

Abstract

Detection and removal of biofouling is crucial for maintaining underwater structure, since biofouling can lead to various operational problems. Potential risk and inefficiency of human detection in underwater environment led to development in robotic systems for automated detection. Recent studies demonstrate the effectiveness of deep learning in automated biofouling detection, but such methods often rely on numerous amounts of labelled data, which is scarce and difficult to obtain due to underwater conditions such as attenuation and scattering. This paper proposes an anomaly detection model using a vision transformer (ViT) for biofouling detection in underwater images. Unlike convolutional neural network, ViT can better capture the global context of images, making it more suitable for textureless underwater images. We further address data scarcity by applying a pre-trained foundation model and finetuning it on underwater dataset. We show that our method outperforms CNN-based biofouling detection model by qualitative and quantitative evaluations. To show that our method is fit for real-time ocean environment, we collected biofouling dataset from floating structure and assessed our method with the dataset.

Keywords:

Underwater Robots, AUV, Vision Foundation Model, Vision Transformer, Biofouling, Anomaly Detection

1. 서 론

바이오파울링(biofouling)은 국문으로는 “생물 오염”이라고도 하며, 수중 구조물 표면에 미생물이나 조류 등의 유기체들이 부착되어 발생하는 현상이다. 이는 구조물의 성능 저하, 유지보수 비용 증가, 부식 가속화 등의 부정적인 영향을 끼친다. 그렇기 때문에 수중 구조물의 운영 시에는 바이오파울링을 지속적으로 탐지하고 제거하는 것은 중요한 문제로 대두된다.

그러나 사람이 물속에 들어가서 직접 탐지 작업을 수행하게 되면 수중 환경 특성상 위험성이 크며, 환경의 제약으로 인해 정확한 모니터링이 어려울 수 있다. 또한 수중 구조물의 크기가 크면 육안 탐지에 많은 시간과 비용이 소모된다. 이런 이유로 로봇을 이용한 바이오파울링의 조사에 대한 연구가 진행되어 왔다^[1-3]. 특히 최근 논문에서는 딥러닝을 이용해 바이오파울링을 탐지하는데, 기존 방법론들에 비해 좋은 성능을 보인다^[1,4-6]. 초기에는 사람이 로봇을 원격으로 조종하면서 로봇에 부착된 카메라를 실시간으로 모니터링하며 바이오파울링을 탐지하는 원격 조종 기반 방법론들이 연구되었으나, 이는 여러 가지 단점이 있었다. 먼저 로봇에 부착된 카메라를 통해 사람이 직접 탐지하기에는 시계가 좋지 않아 바이오파울링의 식별이 어렵다. 또 원격 제어를 이용하기에는 수중 통신이 원활하지 않고, 조류와 같은 수중 환경의 특수성 때문에 조종과 위치 추정이 어렵다^[7]. 이를 고려할 때, 로봇이 주변 환경 정보 인식을 하고 탐지를 자동화하는 방식이 매우 효과적인 해결책이라고 할 수 있다.

하지만 단순한 객체 탐지 기술을 적용하기에는 많은 한계점이 존재한다. 그중 가장 큰 문제는 수중 환경에서의 데이터 부족이다. 수중에서의 데이터 수집은 어렵고, 수집된 데이터의 품질이 떨어지거나 양이 제한적일 수 있다. 또 데이터의 불균형 또한 문제가 된다. 바이오파울링 데이터를 수집할 때 바이오파울링의 비중이 지나치게 크거나 작아 학습에 부정적인 영향을 끼칠 수 있다. 뿐만 아니라 수중 환경은 환경마다 데이터의 편향이 심하기 때문에, 특정 환경에서 잘 작동하는 방법론이 다른 환경에서는 잘 작동하지 않을 수도 있다.

이러한 문제의 대표적인 해결책은 이상 탐지(anomaly detection)이 있다. 이상 탐지 기술은 정상 데이터의 분포를 학습하고 이를 기반으로 비정상적인 데이터를 식별하는 방식으로 작동한다. 특히 이상 탐지 방법론 중 적대적 생성 신경망을 이용하는 GANomaly^[8]는 이 작업에 적합한 기법이다. GANomaly는 정상 데이터의 분포를 복원하는 네트워크를 학습해 입력 이미지의 복원 결과에 따라 이상 여부를 결정하는 복원 기반 이상 탐지 기법인데, 생성형 인공지능인 적대적 생성 신경망(Generative Adversarial Network, GAN)을 사용하여 오토인코더를 사용한 기존 방법보다 좋은 성능을 보이기 때문이다. 그러나 GANomaly는 합성곱 신경망을 사용해 특징들을 추출하기 때문에 텍스처와 같은 지역 특징에 의존하는 경향이 있는데, 수중 이미지는 물의 탁도에 따른 빛의 감쇠와 부유물에 의한 빛의 산란이 일어나 대체로 텍스처가 부족해진다.

본 연구에서는 수중 바이오파울링 탐지 문제를 이상 탐지 관점에서 풀어내는 방법을 제안한다. 특히 본 연구에서 제안하는 탐지 네트워크는 비전 트랜스포머(Vision Transformer, ViT) 기반의 비전 파운데이션 모델(Vision Foundation Model)을 활용함으로써 이미지에 대한 전역 맥락을 더 잘 학습하며 특히 기존 비전 트랜스포머가 가지고 있지 않은 귀납 편향(inductive bias)를 적은 양의 수중 데이터만으로도 야기하는 방법론을 제안한다.

본 연구에서는 해당 방법론의 우수성을 공용 데이터셋에서의 검증 뿐만 아니라 실해역에서 수중 로봇으로부터 직접 취득하여 얻은 실 해역 바이오파울링 데이터를 활용하여 검증함으로써 제안하는 모델의 우수한 바이오파울링 탐지 성능의 우수성을 검증하였다.

본 논문에서 제안하는 기여점은 다음과 같다.

∙ 바이오파울링 탐지 문제를 이상 탐지 방법으로 해결함으로써 기존 방법론들에 요구됐던 전문가 혹은 복잡한 과정의 데이터 레이블링의 필요성을 제거하였다
∙ 비전 파운데이션 모델을 기반으로 한 바이오파울링 탐지 모델을 통해 편향이 심하고 적은 양을 보유한 수중 데이터에서도 빠른 학습 수렴 및 우수한 성능을 야기하였다.
∙ 공용 데이터셋 그리고 직접 취득한 실 해역 데이터로부터의 검증을 통해 제안하는 방법론의 수중 로봇 연구에서의 우수성을 검증하였다.

2. 선행 연구 조사

2.1 바이오파울링 탐지

바이오파울링 탐지에 대한 연구는 꾸준하게 진행되어 왔다. Valery 등은 베이스 이미지와 입력 이미지 간의 특징점을 찾은 후 랜덤 샘플 합의(RANSAC)을 이용한 호모그래피 변환을 적용하였다^[9]. 그 다음 특징 추출을 진행하고 레이블링 된 데이터로 학습된 서포트 벡터 머신을 이용한 분류를 진행하였다. Cheng Siong 등은 사전 학습된 Inception V3 모델에서 전이 학습을 진행한 합성곱 신경망 네트워크를 통해 탐지를 진행하였다^[6]. Yilai 등은 희소 오토인코더로 합성곱 커널을 사전 학습시킨 후 입력 이미지에 합성곱 연산을 시켜서 바이오파울링의 비중에 따라 분류를 진행하였다^[5]. Michael 등은 바이오파울링이 붙어있는 구조물의 합성 이미지를 렌더링해 학습 이미지를 제작한 후, 이를 이용해 합성곱 신경망 기반 인코더-디코더로 학습시켰다^[4]. Wangyuan 등은 합성곱 신경망 모델에 ASPP 기반 향상된 특징 추출 모듈(ASPP enhanced feature extraction module)을 결합하여 다층 전역 정보를 추출하고, SENet으로 깊은 특징들과 얕은 특징들을 합쳤다^[1]. Evelyn 등은 해양 생물학 분야의 전문가들이 대량의 데이터를 바이오파울링의 강도에 따라 분류하고, ImageNet으로 사전 학습된 합성곱 신경망을 학습시켰다^[10].

하지만 이러한 바이오파울링 탐지 방법론들은 공통적으로 학습을 위한 레이블링이 된 데이터가 필요하다는 특징이 있는데, 수중 데이터는 물의 탁도나 빛의 산란 등의 문제로 이미지의 품질이 좋지 않고 물체 간의 경계가 모호해 레이블링이 어렵다는 단점이 있다. 좋은 레이블링을 위해서는 Evelyn 등의 방법처럼 전문가들이 일정 기준에 따라 분류해야 하는데^[10], 이는 비용이 매우 비싸고 대량의 데이터를 만들기 어렵다. 또 분류 기반의 러닝 방법론들은 새로운 데이터에 취약하다는 단점이 있어, 학습 데이터와 다른 종류의 바이오파울링이 발생할 때 문제가 생길 수 있다. 따라서 본 연구에서는 정상상태의 데이터로만 학습을 진행해 별도의 레이블링이 필요 없고, 새로운 데이터에 강인한 이상 탐지 방법론을 이용해 이 문제를 해결하고자 한다.

2.2 이상 탐지

이상 탐지는 불량이나 이상 상태 등 정상이 아닌 모든 상태를 감지하는 기술이며, 많은 분야에서 중요한 역할을 하고 있다. 특히 이미지에서의 이상 탐지는 산업, 의료, 방법 등 여러 영역에서 널리 사용되며, 그에 따라 많은 연구가 진행되어 다양한 방법론들이 개발되었다. Jinsung 등, Karsten 등은 대규모 데이터셋에서 학습된 사전 학습 모델을 활용하여 이미지의 특징들을 추출해 그 특징들을 토대로 정상 데이터와 이상 데이터를 비교하였다^[11,12]. Paul 등, Mohammadreza 등은 대용량 데이터셋으로 학습된 큰 모델과 이상 탐지 전용 데이터셋으로 학습된 작은 모델의 차이를 이용하였다^[13,14]. 두 모델이 정상 데이터에 대해서는 비슷한 출력을 내지만, 이상 데이터에 대해서는 서로 다른 출력을 생성할 것이라는 가정하에 이상 여부를 파악한다. Polina 등, Marco 등은 입력 데이터가 얼마나 정상적인지 확률값으로 표현하는 노멀라이징 플로우(Normalizing Flow)를 학습하였다^[15,16]. Samet 등, Jinwon 등은 정상 데이터를 잘 복원하게 학습된 모델은 이상 데이터는 잘 복원하지 못할 것이라는 가정하에 모델이 입력 데이터를 잘 복원하는지 여부를 토대로 이상 여부를 판단하였다^[8,17].

GANomaly^[8]는 복원 방식의 이상 탐지 방법론 중 하나로 적대적 생성 신경망(GAN)을 이용해 모델을 정상 데이터를 복원하도록 학습시킨 후, 입력 이미지를 생성자에 입력하고 그 결과를 판별자에 입력하는 방식으로 이상 여부를 판별하는 방법이다. 본 연구에서는 이미지의 이상을 측정하기 때문에 이미지 계열의 이상 추정을 하는 적대적 생성 신경망 기반의 모델 사용을 선택하였다. 하지만 GANomaly는 네트워크에 합성곱 신경망을 사용하는데, 이를 사용하게 되면 이미지의 지역 특징에 좀 더 의존하게 된다. 그러나 수중 이미지는 대체로 품질이 좋지 않아 텍스처와 같은 지역 특징이 부족하기 때문에 모델에게 학습하기가 어려워진다. 따라서 본 연구에서는 지역 특징에 대한 의존도를 줄이기 위해 비전 트랜스포머를 사용하고, 학습 데이터가 많이 필요하다는 비전 트랜스포머의 단점을 보완하기 위해 사전 학습된 파운데이션 모델을 적용해 파인튜닝(fine-tuning)시키는 방법을 사용하고자 한다.

3. 연구 방법

본 연구에서는 수중 이미지의 이상 클래스 여부를 판별하는 방법론을 제안한다. 이 이상 클래스는 주로 바이오파울링이 있는 이미지이지만, 데이터의 분포에 따라 바이오파울링이 없는 이미지를 이상 클래스로 설정할 수도 있다. 제안된 방법론의 전체 구조는 [Fig. 1]에 나타내었다.

[Fig. 1]

Overall architecture of our proposed method. Input image is sliced into patches, and each patch is inputted into our proposed classification network. Classification results can be then used by robots to remove biofouling from underwater structure

본 연구에서는 기존과 다르게 주어진 수중 광학 이미지를 N×N 그리드 형식의 이미지로 영역을 분할하여 각 분할된 패치마다 바이오 파울링의 유무를 분류하는 모델을 제안한다. 기존에 전문가를 통하여 이미지 전체를 기반으로 분류 여부를 부여하거나 바이오파울링이 있는 영역을 의미론적 세그먼테이션(Semantic Segmentation) 라벨로 나누는 방식도 존재하지만, 해당 방식은 라벨링 데이터를 얻는 데 어려운 점도 존재할뿐더러 개인마다 바이오파울링 판별 기준의 격차가 발생하여 데이터 노이즈가 발생한다.

이 한계점을 극복하고자 본 연구에서는 두 가지 새로운 방법을 제안한다. 첫 번째로는 바이오파울링의 인식 여부를 이미지 전체 기준이 아닌 이미지 패치 기준으로 나누어 영역에 따른 바이오파울링 유무의 기준을 완화한다. 두 번째로는 학습데이터를 형성할 때 사람이 분류하는 것이 아닌 자동화된 이미지 분류 방식을 이용하여 데이터 분류 기준을 정형화하였다. 이 방식을 통하면 소수의 모호한 데이터를 제외하고는 대부분의 이미지 패치를 유효하게 분류할 수 있을 뿐만 아니라 수중 탐지를 진행하는 로봇과 사용자 입장에서도 비교적으로도 더 손쉽게 유효한 정보를 취득할 수 있다.

3.1 배경

3.1.1 적대적 생성 신경망 (GAN)

적대적 생성 신경망은 이미지를 생성하는 생성자(Generator)와 이미지가 실제 데이터인지 생성자가 만든 데이터인지 판별하는 판별자(Discriminator)로 이루어진 신경망이다^[18]. 생성자는 최대한 실제 데이터와 비슷한 데이터를 만들어 판별자를 속이는 방향으로 학습이 되고, 판별자는 이에 대항해 실제 데이터와 만들어진 데이터를 구별할 수 있도록 학습이 된다. 이렇게 두 네트워크가 경쟁하듯이 학습이 되면서 성능이 같이 향상되는 것을 목표로 한다.

3.1.2 비전 트랜스포머 (ViT)

비전 트랜스포머^[19]는 대규모 언어 모델에서 쓰이던 어텐션(attention)이란 개념을 이미지에 적용한 모델이다. 기존에 이미지를 처리하는 데 쓰이던 합성곱 신경망은 이미지를 작은 패치로 나누어 각각을 따로 분석해 전체 이미지를 이해한다. 반면에 비전 트랜스포머는 이미지를 작은 패치로 나눈 후 각각의 조각들이 서로 어떻게 연결되어 있는지를 파악한다. 그렇기 때문에 이미지의 전역 특징을 더 잘 이해할 수 있다는 장점이 있다.

3.2 문제 정의

이 연구의 목표는 정상 클래스에 비중이 크게 치우친 수중 데이터셋에서 분류를 수행하는 네트워크를 비지도 학습으로 학습시키는 것이다. 훈련 데이터셋은 정상 이미지로만 구성되며, 테스트 데이터셋은 정상 이미지와 이상 이미지가 섞여 있다. 모델의 성능을 평가할 때 이상 데이터와 정상 데이터의 판별을 균형 있게 평가하기 위해 테스트 데이터셋에서는 정상 데이터와 이상 데이터의 비율을 1:1로 맞춘다. 훈련 데이터셋의 크기를 M, 테스트 데이터셋의 크기를 N이라고 할 때, 이상 데이터가 극도로 적은 환경에서 학습을 수행하고자 하므로 M은 N보다 충분히 커야 한다. 모델은 학습 단계에서 훈련 데이터셋을 이용해 학습이 진행된 후, 추론 단계에서 테스트 데이터셋의 이미지들의 이상 여부를 정확하게 판별하는 것을 목표로 한다.

3.3 네트워크 구조

네트워크는 크게 생성자와 판별자 두 모듈로 나뉜다. 생성자는 입력 이미지를 인코딩하고 다시 원본 이미지로 재생성하는 역할을 하고, 판별자는 이미지를 입력받으면 해당 이미지가 원본 이미지인지 생성자가 재생성한 이미지인지 판별하는 역할을 한다. 제안된 네트워크의 전체 구조는 [Fig. 2]에 나타내었다.

[Fig. 2]

Overall structure of classification network. Input patch is inputted into generator, where it tries to embed the patch into features and then reconstruct it back to original image. Then, both input patch and reconstructed patch are inputted into same discriminator, where it determines whether its input is real or reconstructed image

3.3.1 생성자

생성자는 인코더와 디코더 두 모듈로 이루어져 있다. 입력 이미지 X가 생성자에 입력되면 패치 임베딩을 거친 후 비전 트랜스포머 형태의 인코더에 입력되어 특징을 출력한다. 이 특징들은 다시 비전 트랜스포머 형태의 디코더에 입력되어 복원된 이미지 $X^$ 를 출력한다.

3.3.2 판별자

판별자는 비전 트랜스포머 인코더와 유사하다. 이미지가 판별자에 입력되면 패치 임베딩을 거친 후 이미지의 판별을 위한 임베딩인 클래스 토큰을 병합(concatenate)시킨다. 클래스 토큰을 병합시키는 이유는 최대한 트랜스포머의 원본 형태에 가깝게 유지하려는 목적으로, 비전 트랜스포머 논문에서 제시된 원활한 분류 작업을 위한 기법이다^[20]. 이후 비전 트랜스포머 형태의 인코더에 입력되어 특징 f(•)을 출력한 후, 병합되었던 클래스 임베딩의 특징이 선형 계층을 거쳐 원본 이미지인지 생성자가 복원한 이미지인지를 예측한 결과 D(•)이 출력된다.

3.4 비전 파운데이션 모델 (Vision Foundation Model)

비전 트랜스포머의 단점은 학습 가능한 파라미터의 개수가 합성곱 신경망에 비해 많다는 점이다. 이를 데이터가 부족한 수중 환경에서 학습을 시키면 학습 속도가 줄어들 뿐만 아니라 모델이 훈련 데이터에 과적합 될 우려도 커진다. 또한 모델 구조 자체가 귀납 편향을 야기하지 않아 적은 양의 데이터로는 합성곱 신경망 기반의 모델을 사용하는 것보다 성능이 떨어진다는 단점이 있다.

본 연구에서는 비전 파운데이션 모델을 활용하여 위 한계점을 극복하였다. 비전 파운데이션 모델은 자가 지도 학습(Self-Supervised Learning)을 활용하여 많은 양의 다양한 라벨링이 없는 이미지로 이미지의 원초적인 표현을 학습한 모델을 의미한다^[21]. 기존과 같이 라벨링 된 데이터를 활용하여 지도학습을 통해 특정 태스크에 특화된 표현 방법을 표현하는 모델에 대비해 다양한 작업에서 지도 학습의 성능을 월등히 뛰어넘는 것을 확인할 수 있다^[20].

본 연구에서 사용한 비전 파운데이션 모델은 ImageNet-22k 데이터셋을 이용해 사전 학습된 마스킹 오토인코더(Masked AutoEncoder)^[22] 모델을 활용하였다. 해당 모델은 기존에 존재하는 다른 자가 지도 학습된 모델들보다 파인튜닝에 더 좋은 성능을 야기하여 본 연구에서 사용하는 전이 학습 측면에서 더 뛰어나기 때문에 선택하였다^[22]. 마스킹 오토인코더를 통해 수중 이미지의 학습 시 모델의 앞 단 계층들의 표현력을 강건히 유지하고자 모델의 사전 학습된 가중치를 생성자와 판별자에서, 인코더와 디코더의 트랜스포머 블록에 초기 가중치 값으로 설정해 주었으며 마지막 계층의 가중치 값을 제외하고는 고정한 이후 학습을 진행하였다. 이는 작은 수중 데이터셋으로 학습하기 어려운 저레벨(low-level) 특징들을 파운데이션 모델을 이용해 추출하고, 수중 데이터셋의 고레벨(high-level) 특징들만을 학습하게 하기 위함이다.

3.5 학습 목표

네트워크의 학습은 기본적으로 GANomaly에서 제시됐던 손실 함수랑 유사한 손실을 사용하여 학습된다^[8].

3.5.1 생성자의 학습

생성자의 학습은 3개의 손실 함수를 합친 목적 함수를 최적화하는 형식으로 진행이 된다. 첫 번째는 적대적 손실 L_adv로, 생성자가 복원한 이미지 $X^i$ 를 판별자가 판별한 레이블 $D X^i$ 와 생성자가 목표로 하는 결괏값의 레이블 간의 이진 크로스 엔트로피 손실 함수이다. 이 손실은 생성자가 복원한 결과가 얼마나 원본 이미지의 분포에 가까운지에 대한 손실이다.

L a d v = - 1 N ∑ i l o g 1 - D X^i

(1)

두 번째는 맥락 손실 L_con로, 원본 이미지 X_i와 복원된 이미지 $X^i$ 간의 L1 손실 함수이다. 이 손실은 생성자가 정상 이미지를 얼마나 원본에 가깝게 복원하는지에 대한 loss이다.

L c o n = 1 N ∑ i X i - X^i

(2)

세번째는 잠재 손실 L_lat로, 원본 이미지 X_i와 이를 복원한 이미지 $X^i$ 를 판별자에 입력했을 때 판별자가 추출하는 특징 f(•)간의 L2 손실 함수이다. 이는 판별자가 이미지의 원본 여부를 판별할 때 사용하는 특징을 생성자가 얼마나 잘 따라 하는지에 대한 손실이다.

L l a t = 1 N ∑ i f X i - f X^i 2

(3)

최종적으로 생성자의 목적 함수 L_G은 식 (4)와 같다. w_adv, w_con, w_lat은 각 손실이 최종 목적 함수에 끼치는 영향을 조절하는 가중치 파라미터이다.

L G = w a d v L a d v + w c o n L c o n + w l a t L l a t

(4)

3.5.2 판별자의 학습

판별자의 학습은 2개의 손실 함수를 합친 목적 함수를 최적화하는 형식으로 진행이 된다. 첫 번째는 판별 손실 L_dis로, 판별자가 원본과 복원된 이미지를 입력으로 받았을 때 출력되는 예측 레이블 D(•)와 실제 레이블 y_i간의 이진 크로스 엔트로피 손실 함수이다. 이 손실은 판별자가 이미지의 원본 여부를 얼마나 잘 판별하는지에 대한 손실이다.

L d i s = - 1 N ∑ i y i l o g ⁡ D X^i + 1 - y i l o g 1 - D X i

(5)

두 번째는 잠재 손실 L_lat로, 생성자의 잠재 손실과 같다. 그러나 생성자의 경우와 달리 의미가 약간 다른데, 판별자가 얼마나 의미 있는 특징을 잘 추출하는지에 대한 손실이다.

L l a t = 1 N ∑ i f X i - f X^i 2

(6)

최종적으로 판별자의 목적 함수 L_D은 식 (7)과 같다. w_dis, w_lat은 각 손실이 최종 목적 함수에 끼치는 영향을 조절하는 가중치 파라미터이다.

L D = w d i s L d i s + w l a t L l a t

(7)

3.6 추론

모델을 이용해 입력의 이상 여부를 판별하기 위해서는 이상 점수(anomaly score)의 계산이 필요하다. 이상 점수의 계산법은 식 (8) ~ (10)과 같다^[23].

s r = 1 H W ∑ i X i - X^i 2

(8)

s l = 1 F ∑ i f X i - f X^i 2

(9)

s a = λ s r + 1 - λ s l

(10)

이상 점수의 계산은 두 부분으로 나뉜다. 첫 번째 부분은 복원 점수 s_r로, 원본 이미지 X_i와 복원된 이미지 $X^i$ 간의 차이를 계산한다. 두 번째 부분은 잠재 점수 s_l로, 원본 이미지와 복원된 이미지를 판별자에 입력했을 때 생성되는 특징 f(•)간의 차이를 계산한다. 이상 점수 s_a는 두 점수에 가중치 파라미터 λ를 적용해 계산된다.

이렇게 계산된 이상 점수는 상대적이기 때문에, 이 값을 0~1 사이로 정규화하는 작업이 필요하다. 테스트 데이터셋을 테스트할 때 계산한 이상 점수의 집합을 A라고 했을 때, 정규화된 이상 점수 $s^a$ 의 계산법은 식 (11)과 같다.

s^a = s a - m i n A m a x A - m i n A

(11)

이 값이 일정 임곗값보다 크다면 이미지를 이상 이미지로 간주한다.

4. 실험 및 결과

4.1 평가 데이터셋 및 방법

본 연구에서는 두 가지 데이터 셋을 활용하여 평가를 진행하였다. 첫 번째로는 공용 수중 데이터 셋인 Underwater Image Instance Segmentation (UIIS)^[24][Fig. 3]을 활용하였다. UIIS 데이터셋은 이미지 개선, 의미론적 세그먼테이션, 객체 감지 등을 위한 데이터셋에서 수중 이미지를 수집한 데이터 셋이며 물고기(fish), 산호초(coral reef), 수생 식물(aquatic plants) 등의 카테고리를 포함한 세그먼테이션 라벨들이 존재한다. 본 연구에서는 이미지를 패치화 시켜 각각 128×128의 사이즈를 가진 패치를 활용하였다.

[Fig. 3]

Examples of UIIS dataset

추가적으로 본 방법론의 실 활용도를 검증하고자 수중 로봇을 활용한 실 해역 실험을 통해 바이오파울링 수중 데이터셋을 취득하였다. 실험에 사용된 로봇으로는 포항공과대학교에서 개발된 수중 탐사 로봇인 Cyclops^[25] [Fig. 4]에 HD (GoPro) 카메라를 장착하여 수중 광학 이미지 데이터를 취득하였다. 데이터 취득 장소의 경우 포항 장길리 복합낚시공원에 있는 수상 펜션 [Fig. 5]를 수중 구조물로 활용하여 해당 구조물의 바닥 면을 촬영하였으며 취득된 이미지의 데이터 [Fig. 6]의 총 개수는 1167장 정도이다. 해당 데이터의 전처리 과정으로서는 취득한 데이터를 4096×4096으로 크랍한 후 1024×1024으로 리사이즈시켰다. 이미지 바이오파울링을 구역별로 나눌 수 있게 이를 16개의 256×256의 작은 이미지로 나눴다.

[Fig. 4]

Cyclops, an underwater AUV, that was used to collect underwater biofouling data

[Fig. 5]

Image of floating pension. Cyclops gathered data from below the pension, taking pictures of bottom surface

[Fig. 6]

Examples of collected dataset

4.2 평가 데이터셋 분류

자체 데이터셋의 경우에는 먼저 이미지들의 CLIP 임베딩을 생성하여 각 이미지의 특징들을 추출하였다. CLIP은 비전-언어(Vision-Language) 모델 중 하나로 이미지와 텍스트의 쌍으로 이루어진 대규모 데이터셋을 학습하여 이미지와 텍스트의 임베딩 공간을 학습시킨 모델이다^[26]. CLIP의 장점으로는 새로운 데이터에 대해서도 잘 작동하는 제로 샷(zero-shot) 성능이 뛰어나다는 점이 있는데, 별도의 파인튜닝 없이 좋은 임베딩을 생성할 수 있어 편향이 심한 수중 이미지의 편리한 분류에 적합하다고 판단하였다. 그다음 각 이미지를 임베딩 간의 거리를 이용하여 k-평균 클러스터링을 수행해 비슷한 이미지들을 클러스터로 묶는 사전 정제 작업을 수행하였다. 비슷한 이미지를 묶는 작업에 임베딩 간의 거리를 이용할 수 있는 이유는 CLIP의 학습 과정이 같은 클래스를 가지고 있는 이미지는 임베딩 간의 거리가 가깝게, 다른 클래스를 가지고 있는 이미지는 임베딩 간의 거리가 멀게 학습시켰기 때문이다. 따라서 임베딩 간의 거리가 가까우면 원본 이미지끼리 비슷한 클래스를 가지고 있을 확률이 높고, 그렇기 때문에 이미지가 비슷할 확률이 높다. 클러스터링에 k-평균 클러스터링을 사용한 이유는 추후에 수작업으로 클러스터를 탐색하기 위해 클러스터의 개수를 제한하기 위해서이다. 다른 형식의 클러스터링 알고리즘을 사용하면 출력되는 클러스터의 개수를 제어하기 어려운데, 클러스터의 개수가 너무 적으면 비슷하지 않은 이미지들이 하나의 클러스터에 포함될 확률이 너무 커져 사전 정제 작업을 진행한 이유가 없어지고, 너무 많으면 각 클러스터를 탐색하는 데 시간이 너무 오래 걸리게 된다. 마지막으로 각 클러스터를 탐색하면서 바이오파울링이나 구조물임이 확실시되는 클러스터는 그것에 맞게 분류를 하였다. 상대적으로 모호한 이미지들은 눈으로 탐색해 바이오파울링의 비중이 60% 이상이면 바이오파울링, 구조물이 이미지에 존재하고 바이오파울링의 비중이 30% 미만이면 구조물로 분류하였다. 이를 통해 다수의 클러스터를 한꺼번에 분류함으로써 이미지들을 하나씩 분류하는 방법에 비해서 분류 시간을 확연하게 줄였다. 또한 이미지의 흐림이나 어느 분류 기준에도 부합하지 않음과 같은 이유로 분류 여부가 애매한 이미지들은 데이터셋에 포함하지 않았는데, 이는 데이터셋의 오류를 줄이고 흐린 색깔과 같은 의미가 없는 표현을 학습시키는 것을 방지하기 위함이다. 분류 결과의 예시를 [Fig. 7]에 나타내었다. 이 데이터셋의 특징은 바이오파울링의 비중이 구조물의 비중에 비해 월등히 크다는 점이다. 바이오파울링 이미지는 약 7500장, 구조물 이미지는 약 150장으로 구성되어 있다. 따라서 이 데이터셋을 평가할 때 바이오파울링이 아닌 구조물을 이상 데이터로 설정하였다.

[Fig. 7]

Examples of classification of our dataset. Top four images are classified as structures, and bottom four are classified as biofouling

UIIS 데이터셋의 경우에는 각 이미지에 대한 픽셀 단위 주석이 존재하기 때문에, 자체 데이터셋에서 썼던 방법과 같이 눈으로 바이오파울링을 판별하지 않고도 비중을 수치상으로 확인할 수 있다. 따라서 이 이미지를 분류할 때는 각 이미지의 픽셀 단위 주석을 참조하여 산호초 주석의 비중이 60% 이상이면 정상 데이터, 아니면 이상 데이터로 설정하였다. 산호초 클래스를 정상 데이터로 분류한 이유는 데이터셋 내 해당 클래스의 주석이 가장 많아 대량의 학습 데이터를 얻을 수 있고, 산호의 특성상 비슷한 패턴을 가지고 있어 특성을 추출하기 쉽다고 판단했기 때문이다. 분류 결과의 예시를 [Fig. 8]에 나타내었다. 정상 데이터는 약 8500장, 이상 데이터는 약 1000장으로 이루어져 있다.

[Fig. 8]

Examples of classification of UIIS dataset. Top four images are classified as normal, and bottom four are classified as anomaly

본 논문에서는 사전 학습된 파운데이션 모델로 ViT-Base를 활용하였다. 모델은 Adam 옵티마이저를 통해 학습되었으며, 초기 러닝 레이트 lr = 10^-4와 모멘텀 β₁ = 0.9, β₂ = 0.999으로 설정되었다. 생성자 손실의 가중치 파라미터들은 w_adv = 1, w_con = 1, w_lat = 1이 사용되었으며, 판별자에서는 w_dis = 1, w_lat = 1이 사용되었다. 모델의 학습은 하나의 NVIDIA Ge Force RTX 4090을 활용하여 25 에포크 동안 학습하였다.

4.3 정량적 평가

본 논문에서 제시하는 방법론은 이미지를 정상 데이터와 이상 데이터로 분류하는 방법론이다. 따라서 모델이 바이오파울링 탐지에 얼마나 적합한지를 정량적으로 평가하려면 방법론이 수중 데이터에 대해 얼마나 정상 데이터와 이상 데이터를 잘 분류하는지에 대한 지표를 통해 평가해야 한다. 따라서 분류 임곗값을 변경해 가며 모델의 민감도와 특이도를 비교해 모델의 성능을 종합적으로 평가하는 AUROC를 통해 모델을 정량적으로 평가했다. 비교 대상으로는 적대적 생성 네트워크를 이용해 이상 탐지를 수행한 다른 모델인 GANomaly와 Skip-GANomaly를 이용하였다. 또한 모델에 사전 학습된 파운데이션 모델을 적용하는 것의 영향을 분석하기 위해 파운데이션 모델을 적용하지 않은 경우에 대해서도 실험을 진행하였다.

[Table 1]에서 볼 수 있듯이, 다른 방법론들에 비해 본 논문의 방법론을 사용했을 때 AUROC 점수가 높다. 이는 수중 데이터셋에서의 이상 데이터 분류 능력이 제시된 방법론이 종합적으로 더 낫다는 것을 보여준다. 또한 파운데이션 모델을 적용하지 않은 경우 적용한 경우 기존 연구 결과와 동일하게 합성곱 신경망 기반의 모델들보다 성능이 하락하는 것을 확인할 수 있다. 이는 적은 수중 데이터셋의 규모에 비해 비전 트랜스포머의 파라미터 개수가 과도해 과적합이 일어났다고 추정할 수 있다, 특히 특성상 적은 양과 더불어 편향이 심한 수중 이미지를 활용할 경우 과적합으로 인한 문제가 더 심해지는 것을 감안하며 본 연구에서 제안한 방법론이 수중환경에서 사용하기는 적합한 것을 확인할 수 있다.

[Table 1]

Comparison of AUROC with GAN-based anomaly detection methods for our dataset and UIIS

4.4 정성적 평가

모델의 성능을 정성적으로 평가하기 위해 자체 제작 데이터셋에서 하나의 이미지를 16개의 패치로 나눈 것을, 본 연구에서 제시한 모델과 비교 대상 모델 중 하나인 GANomaly에 입력으로 넣어 결과를 비교하였다. 이상 데이터 여부를 판단하는 임곗값은 0.4로 설정하였다.

[Fig. 9]에서 빨간색 테두리가 쳐진 패치들은 지역 특징이 적은 바이오파울링 패치의 예시이다. 수중 환경으로 인한 전방 산란과 후방 산란 등으로 인한 요인 때문에 타 바이오파울링 패치에 비해 텍스처가 적음을 확인할 수 있다. 이 패치들은 사람의 눈으로는 바이오파울링임을 쉽게 유추할 수 있으나, GANomaly 모델은 이를 구조물이라고 판별하였다. 이는 합성곱 신경망을 사용한 GANomaly 모델이 비전 트랜스포머를 사용한 본 연구의 모델에 비해 지역 특징에 의존하기 때문이라고 유추할 수 있다. 이는 지역 특징이 상대적으로 적은 수중 환경에서 본 연구의 방법론이 더 적합하다는 점을 확인시켜 준다.

[Fig. 9]

Anomaly detection results for our method and GANomaly tested on patchified images. Clear patches represent the patches that were classified as anomaly (structure), and white patches represent the patches that were classified as biofouling

[Fig. 9]에서 파란색 테두리가 쳐진 패치는 지역 특징이 많은 구조물 패치의 예시이다. 다른 부분에 비해서 이미지의 흐림이 많지 않고, 바이오파울링이 부분적으로 존재하나 구조물이 차지하는 비중이 작지 않다. 그렇기 때문에 구조물을 이상 클래스로 설정한 이상 탐지 특성상, 이 패치를 구조물이라고 유추해야 한다. 그러나 GANomaly 모델은 이를 바이오파울링이라고 판단하고, 본 연구에서 제시된 모델은 구조물이라고 판단하였다.

4.5 학습 곡선

파운데이션 모델을 이용하는 것의 장점 중 하나는 파라미터 개수가 많은 비전 트랜스포머를 사용하지만, 전체 모델의 수렴 속도가 상대적으로 빠르다는 점이다. 이는 저레벨 특징들을 미리 학습한 파운데이션 모델로부터 이 특징들을 전이 학습을 수행함으로써, 이 특징들을 배우는 데 드는 시간을 아끼기 때문이다. 모델의 수렴 속도를 평가하기 위해 에포크마다 테스트한 AUROC 점수를 기준으로 그린 학습 곡선을 제작하였다.

학습 곡선 [Fig. 10], [Fig. 11]을 살펴보면 자체 데이터셋에서는 본 논문이 제시한 모델이 학습 속도가 빠르지만, UIIS 데이터셋에서는 다른 모델들이 더 학습 속도가 빠르다. 이는 각 데이터셋의 특성에서 기인한다. 각 데이터셋의 이미지들의 샤논 엔트로피의 평균을 계산하면 자체 데이터셋은 6.052, UIIS는 7.277이 나온다. 이미지에서의 엔트로피는 이미지가 가지고 있는 정보의 양을 의미하는데, UIIS의 엔트로피가 더 크다는 것은 UIIS의 이미지들이 자체 데이터셋보다 디테일이 많다는 것을 시사한다. 이는 UIIS의 데이터셋에 합성곱 신경망이 학습할 수 있는 지역 특징이 상대적으로 많다는 점을 의미하므로, 기존 방법론의 학습이 유리해진다.

[Fig. 10]

Learning curve for our dataset

[Fig. 11]

Learning curve for UIIS dataset

본 논문에서는 새롭게 제시된 모델이 실제 수중 환경에서 수렴 속도의 측면에서 유리함을 주장한다. 앞서 제시되었듯 자체 데이터셋은 UIIS보다 엔트로피가 적다. 이는 이미지의 디테일이 적을 뿐만 아니라 데이터셋의 편향이 심하다는 것 또한 시사한다. 이미지의 평균 정보량이 적으면 이미지의 분포 범위가 좁기 때문에 어떤 분포를 향한 편향이 존재하게 되기 때문이다. 그렇다면 새롭게 제시된 모델이 편향이 심한 환경에서 수렴 속도가 빠름을 유추할 수 있는데, 수중 환경은 편향이 심한 환경임으로 제시된 모델의 수렴 속도가 더 빠를 것이라고 예상할 수 있다. 매시간 급격하게 수중 이미지의 형상이 변하는 수중 환경의 경우 적은 양의 데이터로 학습된 모델은 시간이 지나면 이미지의 특성이 달라져 새로운 환경에 대한 일반화 능력이 떨어질 수 있는 반면 해당 모델 사용 시 빠른 수렴 속도를 통해 아무리 데이터를 새롭게 취득하였더라도 학습의 빠른 수렴 속도를 통해 실 환경에서 더 적응하는 모델 학습이 가능하다.

4.6 모호한 사례

수중 환경의 특성과 바이오파울링 여부 기준의 모호함 때문에 데이터셋에 바이오파울링 여부를 판단하기 어려운 사례들이 빈번하게 발생한다. 이 섹션에서는 본 연구에서 제시한 모델과 다른 모델이 이 모호한 사례들에 어떤 출력을 하는지를 분석할 것이다. 이런 모호한 사례들에 대한 정량적 평가는 [Table 2]에 표기하였다.

[Table 2]

Results of GAN-based methods on ambiguous cases

[Fig. 12]의 첫 번째 사진은 실제로는 구조물이지만 사진이 어두워 쉽게 판별하기는 어려운 사진이다. 이 사진에 대해서 세 모델 모두 0.1 정도의 예측값을 출력함으로써 높은 확률로 바이오파울링으로 판단하였다. 사진의 중간 부분이 어두워 색을 통한 판별이 불가능했고, 구조물의 울퉁불퉁한 부분이 바이오파울링의 질감과 유사했기 때문으로 추정된다.

[Fig. 12]

Ambiguous cases

두 번째 사진은 구조물처럼 보이지만 실제로는 바이오파울링의 비중이 큰 사진이다. 사진의 위쪽 절반이 바이오파울링으로 구성되어 있다. GANomaly와 Skip-GANomaly는 0.2 이상의 예측값을 출력함으로써 비교적 높은 확률로 구조물일 것으로 판단하였다. 이는 지역 특징에 상대적으로 더 의존하는 두 방법론의 특성상 텍스처가 없는 부분을 구조물이라고 오인식했을 가능성이 크다.

세 번째 사진은 구조물과 바이오파울링의 비중이 각각 절반 정도인 사진이다. 사진의 어두운 부분이 구조물로, 빛의 감쇠 때문에 눈으로 판별하기 어렵다. 하지만, 이 데이터셋은 연속적인 촬영으로 수집된 데이터셋이기 때문에, 가까운 프레임의 비슷한 위치에 구조물이 존재한다는 것을 확인함으로써, 이 사진에서 어두운 부분 또한 구조물일 것이라고 유추할 수 있다. 그러나 세 모델 전부 그런 점을 고려하지 않기 때문에, 모두 0.1 이하의 예측값을 출력함으로써 높은 확률로 바이오파울링일 것으로 판단하였다.

5. 결 론

본 논문에서는 수중 이미지에서의 지역 특징의 결핍을 비전 트랜스포머를 이용함으로써 해소하는 방법론을 제시하였다. 이 방법은 모델이 이미지의 전역 특징을 좀 더 잘 이해할 수 있는 구조를 이용함으로써 지역 특징에 대한 의존도를 줄이고, 이것이 수중에서의 바이오파울링 감지에 대한 성능을 향상시켰음을 공용 데이터와 실 해역 수중 데이터를 통해 확인하였다. 또한 수중 이미지의 고전적인 데이터의 부재 및 편향으로 인한 모델의 과적합 문제를 파운데이션 모델의 도입과 파인 튜닝으로 해소할 수 있음을 비교를 통해 확인하였다. 추가로 모델 결과의 정성적인 평가를 통해 해당 모델이 기존 모델이 판별하기 어려워하던 지역 특징이 부족한 상황에서 바이오파울링 여부를 잘 판단한다는 것을 보여주었다. 향후 본 연구를 통해 수중 로봇을 활용한 바이오파울링 탐지 작업 혹은 유사한 작업을 수행할 때 본 논문에서 제시된 방법론을 통해 현장에서 수집한 더 적은 양의 데이터를 빠르고도 더 높은 정확도로 학습할 수 있다는 점을 기대한다.

Acknowledgments

This project was funded by Korea Robotics Society (KROS), and is currently supported by the publication grant.

References

W. Zhao, F. Han, X. Qiu, X. Peng, Y. Zhao, and J. Zhang, “Research on the identification and distribution of biofouling using underwater cleaning robot based on deep learning,” Ocean Engineering, vol. 273, Apr., 2023. [https://doi.org/10.1016/j.oceaneng.2023.113909]
H. Su, S. Liu, L. Zhang, Y. Chen, and C. Yang, “Biofouling recognition and boundary tracking control for underwater cleaning robots,” Ocean Engineering, vol. 295, Mar., 2024. [https://doi.org/10.1016/j.oceaneng.2024.116707]
N. K. V. B. Shirose, M. Adak, M. Kumar, S. J. J. A. Srinivasan, and R. S. Muhammad, “Design of a Remotely Operated Vehicle (ROV) for Biofoul Cleaning and Inspection of Variety of Underwater Structures,” 2021 9th RSI International Conference on Robotics and Mechatronics (ICRoM), Tehran, Iran, Islamic Republic of, pp. 451-457, 2021. [https://doi.org/10.1109/ICRoM54204.2021.9663518]
M. O’Byrne, V. Pakrashi, F. Schoefs, and B. Ghosh, “Semantic Segmentation of Underwater Imagery Using Deep Networks Trained on Synthetic Imagery,” Journal of Marine Science and Engineering, vol. 6, no. 3, Aug., 2018. [https://doi.org/10.3390/jmse6030093]
Y. Zheng, T. Wang, B. Xin, T. Xie, and Y. Wang, “A Sparse Autoencoder and Softmax Regression Based Diagnosis Method for the Attachment on the Blades of Marine Current Turbine,” Sensors, vol. 19, no. 4, Feb., 2019. [https://doi.org/10.3390/s19040826]
C. Chin, J. Si, A. Clare, and M. Ma, “Intelligent Image Recognition System for Marine Fouling using Softmax Transfer Learning and Deep Convolutional Neural Networks,” Complexity, 2017, Oct.. [https://doi.org/10.1155/2017/5730419]
J. Yan, T. Gao, X. Yang, C. Chen, and X. Guan, “Teleoperation Control of Autonomous Underwater Vehicle Toward Human on the Loop: Needs, Analyses, and Solutions,” IEEE Systems, Man, and Cybernetics Magazine, vol. 10, no. 3, pp. 2-13, Jul., 2024. [https://doi.org/10.1109/MSMC.2023.3275770]
S. Akcay, A. Atapour-Abarghouei, and T. P. Breckon, “Ganomaly: Semi-supervised anomaly detection via adversarial training,” arXiv:1805.06725, 2018. [https://doi.org/10.48550/arXiv.1805.06725]
V. Grishkin, O. Iakushkin, and N. Stepenko, “Biofouling detection based on image processing technique,” 2017 Computer Science and Information Technologies (CSIT), Yerevan, Armenia, pp. 158-161, 2017. [https://doi.org/10.1109/CSITechnol.2017.8312162]
E. J. Mannix, S. Wei, B. A. Woodham, P. Wilkinson, and A. P. Robinson, “Automating the assessment of biofouling in images using expert agreement as a gold standard,” Scientific Reports, vol. 11, Feb., 2021. [https://doi.org/10.1038/s41598-021-81011-2]
J. Yoon, K. Sohn, C.-L. Li, S. O. Arik, and T. Pfister, “SPADE: Semi-supervised Anomaly Detection under Distribution Mismatch,” arXiv:2212.0017, 2022. [https://doi.org/10.48550/arXiv.2212.00173]
K. Roth, L. Pemula, J. Zepeda, B. Scholkopf, T. Brox, and P. Gehler, “Towards Total Recall in Industrial Anomaly Detection,” arXiv:2106.08265, 2022. [https://doi.org/10.48550/arXiv.2106.08265]
P. Bergmann, M. Fauser, D. Sattlegger, and C. Steger, “Uninformed Students: Student-Teacher Anomaly Detection With Discriminative Latent Embeddings,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, pp. 4183-4192, 2020. [https://doi.org/10.1109/CVPR42600.2020.00424]
M. Salehi, N. Sadjadi, S. Baselizadeh, M. Hossein Rohban, and H. R. Rabiee, “Multiresolution Knowledge Distillation for Anomaly Detection,” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, pp. 14897-14907, 2021. [https://doi.org/10.1109/CVPR46437.2021.01466]
P. Kirichenko, P. Izmailov, and A. G. Wilson, “Why Normalizing Flows Fail to Detect Out-of-Distribution Data,” Advances in neural information processing systems, 2020, pp. 20578-20589. [https://doi.org/10.48550/arXiv.2006.08545]
M. Rudolph, T. Wehrbein, B. Rosenhahn, and B. Wandt, “Fully Convolutional Cross-Scale-Flows for Image-Based Defect Detection,” 2022 IEEE/CVF Winter Conference on Applications of Computer Vision, Waikoloa, HI, USA, pp. 1088-1097, 2022. [https://doi.org/10.1109/WACV51458.2022.00189]
H. H. Nguyen, C. N. Nguyen, X. T. Dao, Q. T. Duong, D. P. T. Kim, and M.-T. Pham, “Variational Autoencoder based Anomaly Detection using Reconstruction Probability,” arXiv:2408.13561, 2024. [https://doi.org/10.48550/arXiv.2408.13561]
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative Adversarial Networks,” Communications of the ACM, vol. 63, no. 11, pp. 139-144, 2020. [https://doi.org/10.1145/3422622]
A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby, “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” arXiv:2010.11929, Sept., 2021. [https://doi.org/10.48550/arXiv.2010.11929]
M. Oquab, T. Darcet, T. Moutakanni, H. Vo, M. Szafraniec, V. Khalidov, P. Fernandez, D. Haziza, F. Massa, A. El-Nouby, M. Assran, N. Ballas, W. Galuba, R. Howes, P. Y. Huang, S. W. Li, I. Misra, M. Rabbat, V. Sharma, G. Synnaeve, H. Xu, H. Jegou, J. Mairal, P. Labatut, A. Joulin, and P. Bojanowski, “DINOv2: Learning Robust Visual Features without Supervision,” arXiv:2304.07193, 2024. [https://doi.org/10.48550/arXiv.2304.07193]
X. Liu, T. Zhou, C. Wang, Y. Wang, Y. Wang, Q. Cao, W. Du, Y. Yang, J. He, Y. Qiao, and Y. Shen, “Toward the Unification of Generative and Discriminative Visual Foundation Model: A Survey,” The Visual Computer, 2024. [https://doi.org/10.1007/s00371-024-03608-8]
K. He, X. Chen, S. Xie, Y. Li, P. Dollar, and R. Girshick, “Masked Autoencoders Are Scalable Vision Learners,” arXiv:2111.06377, 2022. [https://doi.org/10.48550/arXiv.2111.06377]
S. Akçay, A. Atapour-Abarghouei, and T. P. Breckon, “Skip-GANomaly: Skip Connected and Adversarially Trained Encoder-Decoder Anomaly Detection,” 2019 International Joint Conference on Neural Networks (IJCNN), Budapest, Hungary, pp. 1-8, 2019. [https://doi.org/10.1109/IJCNN.2019.8851808]
S. Lian, H. Li, R. Cong, S. Li, W. Zhang, and S. Kwong, “WaterMask: Instance Segmentation for Underwater Imagery,” 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, France, pp. 1305-1315, 2023. [https://doi.org/10.1109/ICCV51070.2023.00126]
J. Gu, J. Pyo, and S.-C. Yu, “Sonar image processing algorithms for object recognition using hovering-type AUV “Cyclops”,” 2015 15th International Conference on Control, Automation and Systems (ICCAS), Busan, Republic of Korea, pp. 1785-1789, 2015. [https://doi.org/10.1109/ICCAS.2015.7364640]
A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning Transferable Visual Models From Natural Language Supervision,” arXiv:2103.00020, 2021. [https://doi.org/10.48550/arXiv.2103.00020]