Journal of Korea Robotics Society
[ ARTICLE ]
The Journal of Korea Robotics Society - Vol. 18, No. 4, pp.436-443
ISSN: 1975-6291 (Print) 2287-3961 (Online)
Print publication date 30 Nov 2023
Received 31 May 2023 Revised 21 Aug 2023 Accepted 13 Sep 2023
DOI: https://doi.org/10.7746/jkros.2023.18.4.436

트랜스포머 기반 MUM-T 상황인식 기술: 에이전트 상태 예측

백재욱1 ; 전성우1 ; 김광용2 ; 이창은
Transformer-Based MUM-T Situation Awareness: Agent Status Prediction
Jaeuk Baek1 ; Sungwoo Jun1 ; Kwang-Yong Kim2 ; Chang-Eun Lee
1Senior Researcher, ETRI, Daejeon, Korea jubaek@etri.re.krswjun@etri.re.kr
2Principal Researcher, ETRI, Daejeon, Korea kwangyk@etri.re.kr

Correspondence to: Principal Researcher, Corresponding author: Digital Convergence Research Laboratory, ETRI, Daejeon, Korea ( celee@etri.re.kr)

CopyrightⓒKROS

Abstract

With the advancement of robot intelligence, the concept of man and unmanned teaming (MUM-T) has garnered considerable attention in military research. In this paper, we present a transformer-based architecture for predicting the health status of agents, with the help of multi-head attention mechanism to effectively capture the dynamic interaction between friendly and enemy forces. To this end, we first introduce a framework for generating a dataset of battlefield situations. These situations are simulated on a virtual simulator, allowing for a wide range of scenarios without any restrictions on the number of agents, their missions, or their actions. Then, we define the crucial elements for identifying the battlefield, with a specific emphasis on agents’ status. The battlefield data is fed into the transformer architecture, with classification headers on top of the transformer encoding layers to categorize health status of agent. We conduct ablation tests to assess the significance of various factors in determining agents’ health status in battlefield scenarios. We conduct 3-Fold corss validation and the experimental results demonstrate that our model achieves a prediction accuracy of over 98%. In addition, the performance of our model are compared with that of other models such as convolutional neural network (CNN) and multi layer perceptron (MLP), and the results establish the superiority of our model.

Keywords:

MUM-T, Situation Awareness, Military AI, Robot Intelligence

1. 서 론

인공지능 기술은 군사 전투, 임무 계획 및 감시에서 중요한 역할을 한다. 인공지능은 군인이나 로봇과 같은 에이전트들이 전투 상황을 실시간으로 분석하고 의사 결정을 지원하는 데 도움을 줄 수 있다[1]. 예를 들어, 센서 데이터를 분석하는 경우 인공지능 기술을 통해 적의 움직임을 탐지하고 추적할 수 있고, 잠재적 위협을 판단하기 위해 의심스러운 활동을 나타내는 패턴을 인식할 수 있다. 또한, 전장 환경에서 수집된 이미지 및 동영상을 분석해 객체의 시각적 특징을 추출하고, 이를 소셜 미디어 게시물이나 뉴스 기사와 같은 텍스트 데이터에서 얻은 정보와 결합해 전장 상황에 대한 이해와 통찰력을 얻을 수 있다. 이를 위해 다양한 출처의 정보를 복합적으로 분석하는 다양한 구조의 인공지능 기술이 개발되고 있다. 합성곱 신경망(CNN), 순환 신경망(RNN), 그리고 트랜스포머(Transformer)[2] 아키텍처 등을 활용해 심층신경망 구조로 설계하거나, 강화학습 기술을 활용하여 상황과 환경에 대한 인식을 기반으로 결정을 내리거나 행동을 취할 수 있도록 모델을 개발하는 연구가 진행되고 있다[3]. 이런 인공지능 모델을 설계하는 데 있어 가장 중요한 전제 조건은 학습에 필요한 양질의 데이터를 수집하고 구축하는 것이다.

전장 상황 데이터를 획득하는 방법은 다양하다. 뉴스 매체, 소셜 미디어, 학술 출판물 및 상업적 데이터베이스와 같이 공개된 Open-Source Intelligence를 활용하는 경우, 작전 지역의 사건, 대중적인 의견 및 공개 소스 분석을 통해 유용한 통찰력을 얻을 수 있다. 무인 항공기(UAV), 인공위성, 지상 순찰 또는 전문 정찰 부대와 같은 다양한 전투 자산을 활용하는 방법도 있다. 적의 움직임을 감지하고 추적하는 레이더 시스템, 적의 소리와 이벤트를 감지하는 음향 센서, 시각적 정찰을 위한 전자 광학 및 적외선(EO/IR) 시스템 및 기타 특수 센서 등을 활용하면 다양한 전장 환경에 대한 대규모 데이터를 획득할 수 있다. 나아가, 원격으로 적군을 감지하는 경우 위성 영상, 항공 사진 등을 활용하여 지형 특징을 기반으로 적군의 움직임 및 작전을 파악할 수 있고, 이를 통해 다수의 적군에 하달 된 명령과 지휘관의 의도를 전역적 관점에서 분석할 수 있다.

하지만, 실제 전투가 발생하는 환경에서 전장 데이터를 수집하는 것은 안전 및 보안 문제로 인해 현실적으로 불가능하다. 이를 극복하기 위해 기 구축된 데이터셋을 활용하거나, 실제와 같은 전장 환경을 모델링하는 가상 환경 시뮬레이터를 활용하는 방법이 있다. 미국 국방고등연구계획국(DARPA)은 다양한 공개 가능한 데이터셋에 접근할 수 있는 오픈 카탈로그(open catalog)를 운영한다[4]. 전투에 국한되지는 않지만, 로봇, 자율 시스템 및 기타 군사 연구 분야와 관련된 데이터셋을 포함하고 있다. 미 육군 연구소(ARL)에서는 센서, 시뮬레이션, 자율 시스템과 같은 특정 전투 측면과 관련된 데이터셋을 포함한 다양한 연구 분야와 관련된 데이터셋을 저장한 ARL data commons를 제공한다[5]. 가상 환경 시뮬레이터는 사람이 가상환경에 참여해 직접 에이전트 역할을 수행하는 Virtual Reality (VR) 시뮬레이터와 가상의 캐릭터를 에이전트로 구현해 작전 및 임무를 수행하는 컴퓨터 기반(Computer-based) 시뮬레이터로 나누어진다. VR 시뮬레이터는 컴퓨터 그래픽을 활용하여 몰입감 있는 가상 환경을 생성하는 시뮬레이터로, 개별 에이전트(예: 군인, 로봇 등)에 부착된 센서와 물리 역학을 모델링하여 실제 전투 상황을 재현한다. 컴퓨터 기반 시뮬레이터는 무기 시스템, 지형, 통신망 등 전장의 다양한 측면을 소프트웨어로 모방하며, 전술 훈련과 작전 계획을 분석하기 위해 다양한 시나리오를 생성할 수 있다. 특히, 대규모 전투 또는 작전을 시뮬레이션할 수 있고, 미리 정의된 규칙과 교리에 기반하여 군대의 행동을 모델링하여 실제와 같은 전장 데이터를 획득하는데 도움이 된다.

전장 상황 인식의 궁극적인 목표는 군사 지휘관이 수집된 정보를 기반으로 판단을 내리고 자원을 효과적으로 할당하며, 작전 환경과 잠재적 위협을 보다 깊이 이해하여 작전을 성공적으로 수행하는 것이다. 특히, 전장환경에서 아군의 피해를 최소화하는 것은 불필요한 손실을 줄이고 전략자원을 효율적으로 사용할 수 있어 중요하다. 인공지능의 도움을 받아 에이전트의 건강상태를 예측하면 어떤 조치가 효과적이었고 어떤 조치가 적절하지 않았는지를 미리 파악할 수 있고, 향후 수행할 작전에서 유용한 교훈으로 활용할 수 있다.

본 논문에서는 가상 환경 시뮬레이터를 이용하여 전장 데이터셋을 구축하고, 전투/교전 중인 유무인 협업(MUM-T) 에이전트의 특징과 위치를 분석해 개별 에이전트의 건강 상태(Health status)를 예측하는 인공지능 모델을 제안한다. 구체적으로, 개별 에이전트의 특징 정보를 정의하고, 이를 인공지능 모델에 적용할 수 있도록 인코딩하는 방법을 제시한다. 또한, 전투/교전 상황에서 에이전트의 위치 정보는 건강 상태에 중요한 영향을 미치므로 이를 반영하도록 위치 정보를 인코딩하는 방법을 제시한다. 인코딩을 통해 얻은 개별 에이전트의 임베딩은 트랜스포머 아키텍처에 입력되며, 멀티헤드 어텐션(multi-head attention)을 통해 동일 시간대 작전을 수행하고 있는 에이전트의 특징과 위치의 상호 연관성을 파악한다. 제안하는 모델은 트랜스포머 아키텍처 마지막 계층(layer)에 분류 헤더(classification header)를 추가해 개별 에이전트의 건강상태를 분류하는 작업(task)를 수행한다.

본 논문의 기여도는 다음과 같다.

  • · 가상환경 시뮬레이터로부터 유무인 협업 시나리오를 모델링하고, 각 에이전트의 특징을 나타내는 전장 데이터를 수집한다. 이를 활용해 인공지능 모델을 학습하고, 학습된 모델을 통해 전장 상황을 추론하는 프레임워크를 제시한다.
  • · 전장 상황, 특히 전투/교전 상황을 인식하는데 필요한 데이터를 정의하고, 아군 및 적군 에이전트의 특징과 위치를 인코딩하는 방법을 제시한다.
  • · 다양한 시나리오, 다양한 맵에서 작전을 수행하는 에이전트의 건강 상태를 예측 할 수 있도록, 확장 가능한 트랜스포머 아키텍처를 설계한다.
  • · Ablation test를 수행해 에이전트의 건강 상태에 영향을 미치는 에이전트의 특징을 파악한다.
  • · 3-Fold 교차 검증(cross-validation)을 통해 실험결과의 신뢰도를 높이고, 제안하는 모델이 합성곱 신경망 및 다층퍼셉트론 모델(MLP) 보다 성능이 우수함을 입증해, 트랜스포머 구조의 모델 설계 타당성을 제시한다.

2. 관련연구

2.1 Transformer

트랜스포머(Transformer)[2]는 자연어를 처리하기 위해 제안된 딥러닝 모델 중 하나이다. 기존의 순환 신경망과 같이 재귀적(recursive) 구조로 입력 데이터를 분석하는 대신, 셀프 어텐션(self-attention) 개념을 적용해 입력 데이터 간의 관계를 파악한다. 또한, 병렬처리가 가능해 모델의 학습과 추론 속도가 빠른 특징이 있다. 트랜스포머는 인코더(Encoder)와 디코더(Decoder)로 구성되며, 각각은 여러 개의 층으로 구성할 수 있어 모델의 크기와 복잡성을 고려해 모델을 설계할 수 있다.

최근에는 자연어 처리뿐만 아니라 컴퓨터 비전 분야에서도 기존의 합성곱 신경망 모델보다 뛰어난 분석 능력을 보여주고 있다. 무엇보다 입력 데이터를 토큰(token)화하고, 임베딩(Embedding) 된 벡터를 네트워크에 입력하기 때문에, 미리 정해놓은 형식과 구조로 저장된 정형 데이터(예, 그래프, 표 등) 뿐만 아니라 비정형 데이터도 트랜스포머에 입력해 학습할 수 있다.

2.2 Multi-Modal Representation Learning

Multi-Modal Representation Learning[6]은 다양한 종류의 입력 데이터로부터 효과적인 표현을 학습하는 기술이다. 다양한 모달리티(modality)를 가진 데이터(예, 이미지, 텍스트, 오디오, 비디오 등) 간의 상호작용과 관계를 모델링해 모달리티의 고유한 특징을 파악할 수 있고, 서로 다른 모달리티 정보를 효과적으로 통합할 수 있다. 예를 들어, 이미지 캡셔닝(image Captioning)과 소셜 미디어 분석은 이미지 콘텐츠와 관련된 텍스트를 처리하여 콘텐츠의 의미를 이해하는 데 활용 된다[7]. 또한, 주변 상황과 환경을 분석하기 위해 다양한 모달리티의 데이터를 수집하고 종합적으로 처리하는 상황인지 분야에도 적용될 수 있다.


3. 설 계

전장 상황을 분석하는데 트랜스포머 구조 기반의 인공지능 모델을 활용하면 다양한 장점이 있다. 에이전트들이 수집한 데이터에 내포된 시맨틱 정보를 추출하고 분석하는 과정은 전장상황을 이해는 일련의 과정이다. 이런 시맨틱 정보는 일반적으로 인간의 언어로 표현되며, 트랜스포머 구조를 활용하면 효과적으로 분석 및 이해 할 수 있다. 또한, 많은 양의 텍스트 데이터를 학습한 Large Language Model (LLM)이 트랜스포머 구조를 기반으로 개발되고 있으며, 이를 전장상황인지 모델에 활용할 경우 전장상황의 다양한 측면을 이해하는 능력을 갖출 수 있다. 또한, 전장환경에서 투입되는 유무인 에이전트 수는 일반적으로 작전 및 임무마다 다르기 때문에, 에이전트의 상태를 예측하는 인공지능 모델은 에이전트 수에 제한받지 않고 확장 가능한도록 설계되어야한다. 트랜스포머 구조는 PAD 및 MASK 토큰을 활용해 다양한 개수의 토큰을 입력받을 수 있기 때문에, 에이전트 수의 제한을 받지 않고, 모델을 설계할 수 있다.

본 논문에서는 전장 환경 시뮬레이터를 활용해 전장 환경 데이터를 수집하고, 이를 인공지능 모델에 적용한다. 트랜스포머 구조를 활용해 전장 상황, 특히 전투/교전 상황에서 아군 및 적군의 에이전트의 건강상태를 예측하는 모델을 제안한다.

3.1 Framework to Collect Battlefield Situation Data

[Fig. 1]은 전장 환경 시뮬레이터를 활용해 전장 상황 데이터를 수집하는 프레임워크를 나타낸다. 전장 시나리오는 전장환경 시뮬레이터로부터 지형 및 지도를 선택하고, 개별 에이전트를 배치하며, 개별 에이전트에게 임무를 할당하여 생성된다. 로거(Logger) 프로그램을 통해 전장 시나리오에서 발생하는 이벤트 및 개별 에이전트의 정보를 기록하고, 이를 데이터베이스(DB)에 저장해 전장 상황 데이터를 구축한다.

[Fig. 1]

Framework to collect battlefield situation data

전장시나리오에 임무를 수행하는 개별 에이전트 정보는 아래와 같이 정의된다.

  • · Agent type: 에이전트의 유형(예: 사람, 로봇)
  • · Force: 피아 정보(예: 적군, 아군)
  • · Posture: 에이전트의 자세 정보(예: 이동, 엄폐)
  • · Weapon type: 에이전트가 장착한 무기 유형(예: 폭탄, 총)
  • · Location (x,y,z): 가상 시뮬레이터 내 x,y,z 좌표 정보
  • · Health status: 에이전트의 건강상태(예: [Table 1] 참조)

Agent’s 4 health status

3.2 Agent Embedding

본 논문에서 제안하는 모델은 트랜스포머 구조를 기반으로 하며, 이 모델을 사용하여 개별 에이전트의 건강 상태를 분류하기 위해서는 개별 에이전트 정보를 임베딩하여 벡터 형태로 변환해야 한다. 에이전트 임베딩(agent embedding)은 다음과 같이 4가지 임베딩 벡터를 활용하여 정의된다.

3.2.1 Categorical Embedding

[Fig. 2]는 개별 에이전트 정보 중 Agent type, Force, Posture 및 Weapon type를 활용하여 Categorical embedding을 정의하는 방법을 나타낸다. Word2Vec 모델의 Lookup table과 같이 임베딩 벡터를 정의하기 위해 각각의 Agent type, Force, Posture 및 Weapon type 정보를 concatenation 한 후 모든 가능한 조합을 찾아 고유 정수를 부여한다. 부여된 정수를 torch.nn.Embedding와 같은 임베딩 계층를 활용해 밀집 벡터(dense vector)로 맵핑함으로써, Categorical embedding을 얻는다.

[Fig. 2]

Mapping from agent information to Categorical embedding

3.2.2 GridMap Embedding

[Fig. 3]는 개별 에이전트 정보 중 Location (x,y,z) 를 활용하여 GridMap embedding을 정의하는 방법을 나타낸다. 각 전장 시나리오에서 구현된 지형 및 지도 정보를 격자(grid)로 나누고, 해당 격자에 위치한 에이전트에 격자 인덱스를 부여한다. 격자 인덱스는 지도 내 좌측 상단을 (1,1)로 정의하고, 지도 내 우측 하단을 (xmax, ymax)로 정의한다.

[Fig. 3]

Mapping from agent information to GridMap embedding

개별 에이전트의 건강상태는 인접한 아군 및 적군 에이전트에 밀접한 영향을 받는다. 따라서, 인접한 에이전트간 GridMap embedding이 유사하도록 정의하기 위해 [Fig. 4]와 같은 특징을 나타내는 2차원 positional encoding[8]을 적용한다.

PEx,y,i=sinfx,y,i100002iD if i is even cosfx,y,i100002iD if i is odd (1) 
[Fig. 4]

Two dimensional positional encoding for GridMap embedding

식 (1)은 격자 인덱스를 밀집 벡터로 맵핑하는 것을 나타내는 수식이다. D는 임베딩 벡터의 크기를 나타내며, i는 채널 인덱스를 나타낸다. 1≤xxmax 와1≤y≤ymax 는 각각 격자 인덱스의 첫 번째, 두 번째 값을 나타낸다. 식 (1)에 표현된 f(x, y, i)는 다음과 같이 정의된다.

fx,y,i=x   if i<D2y  if i<D2(2) 
3.2.3 Contextual Embedding

[Fig. 5]는 개별 에이전트 정보 중 Agent type, Force, Posture 및 Weapon type를 활용하여 Contextual embedding을 정의하는 방법을 나타낸다. 사전 학습된(Pretrained) 자연어 처리모델을 활용하여 개별 에이전트의 contextual 정보를 임베딩 벡터로 표현하는 경우, 대규모의 텍스트 데이터를 사용하여 사전 학습된 가중치를 활용할 수 있다. 이를 통해 contextual 정보를 효과적으로 이해할 수 있고, 표현력이 우수한 임베딩을 얻을 수 있다.

[Fig. 5]

Mapping from agent information to Contextual embedding

본 논문에서는 개별 에이전트 정보 중 Agent type, Force, Posture 및 Weapon type 정보를 concatenation 해 문장으로 구성하고, tokenization으로 생성된 토큰을 사전 학습된 BERT[9]모델에 입력해 Contextual embedding을 얻는다.

3.2.4 Positional Embedding

트랜스포머 구조에서 positional encoding은 입력 시퀀스의 단어나 토큰의 상대적인 위치 정보를 모델에 전달하는 역할을 한다. 본 논문에서는 에이전트의 임베딩이 모델에 입력될 때, 트랜스포머 구조 내에서의 상대적인 위치가 학습에 미치는 영향을 분석하기 위해 1차원 positional encoding을 적용해 Positional embedding을 얻는다.

3.3 Agent’s Health Status Prediction Model

[Fig. 6]은 개별 에이전트 건강 상태를 예측하는 모델을 나타낸다. 에이전트 임베딩은 3.2장에서 정의한 Categorical embedding, GridMap embedding, Contextual embedding 및 Positional embedding을 결합하여 생성하며, 이에 Layer Norm 및 Dropout을 적용한다.

[Fig. 6]

Our model to predict health status of agents

에이전트 임베딩은 트랜스포머 인코딩 계층(encoding Layer)에 입력되고, 멀티헤드 어텐션을 적용한다. 트랜스포머 인코딩 계층 수 L(≥1, 정수)를 조절해 모델의 크기와 복잡성이 에이전트의 건강상태를 예측하는 데 미치는 영향을 분석한다. 또한, 전장 환경 시뮬레이터를 통해 다양한 수의 에이전트로 구성된 전장 시나리오를 생성 할 수 있으므로, 입력되는 에이전트 임베딩의 수를 맞추기 위해 PAD 토큰을 활용한다.

트랜스포머 인코딩 계층으로부터 인코딩된 임베딩 벡터는 분류 헤더를 거쳐 [Table 1]에 나타낸 4가지 건강 상태를 나타내는 벡터로 분류되며, 네트워크 가중치를 학습하기 위해 cross entropy 손실함수(loss function)을 적용한다.


4. 결 과

4.1 Battlefield Situation Dataset

전장 환경 시뮬레이터를 활용해 5가지 전장 시나리오를 생성한다. 각 시나리오는 18, 44, 44, 29, 46개의 에이전트가 임무를 수행하며, Time stamp의 개수는 150, 65, 65, 119, 50로 설정했다. 트랜스포머에 동시에 입력되는 에이전트 임베딩은 동일한 Time stamp에서 얻은 개별 에이전트의 정보로부터 생성된다. 전장 상황 데이터는 Train:Val(Test) = 8:2로 구성해 모델 학습 및 평가에 활용된다.

4.2 Training Parameters and Simulation Settings

[Table 2]은 개별 에이전트 건강 상태를 예측하는 모델의 구조 및 학습 파라미터를 나타낸다. 에이전트 임베딩이 에이전트의 건강상태를 예측하는 데 미치는 영향을 분석하기 위해 ablation test를 수행하며, [Table 3] 와 같이 다양한 조합으로 에이전트 임베딩을 생성한다. 예를들어, PCMC는 agent embedding = Positional embedding + Categorical embedding + GridMap embedding + Contextual embedding를 나타낸다.

Parameters for training our model

Settings for ablation test

4.3 Experimental Results

[Table 4]는 다양한 조합으로 에이전트 임베딩을 생성할 때 트랜스포머 인코딩 계층 수에 따른 제안된 모델의 성능을 나타낸다. 3-Fold cross validation을 적용해 Test 데이터가 모델 성능에 미치는 영향을 최소화하고 실험결과의 신뢰도를 높였다. 모든 경우에 에이전트의 건강상태를 예측하는 성능은 accuracy〉0.98 로 확인되며, PCMC가 전반적으로 가장 좋은 성능을 나타낸다. 또한, PCMC 대비 CMC의 성능이 낮은 것을 확인할 수 있다. 이를 통해 positional embedding이 다른 embedding에 비해 트랜스포머 구조의 모델을 학습하는데 중요한 영향을 미치는 것을 파악할 수 있다. 또한, 모든 트랜스포머 인코딩 계층 수에 대해 PCMC와 PCC의 성능이 비슷하다. 이를 통해 식 (1)으로부터 생성한 GridMap Embedding이 다른 임베딩에 비해 중요도가 낮은 것을 확인 할 수 있다. 이 결과는 시나리오를 구성할 때 아군 및 적군의 에이전트들이 유사한 위치에 배치한다면, 위치정보가 개별 에이전트의 건강 상태 예측에 미치는 영향이 낮다고 해석할 수 있다. 이는 개별 에이전트의 건강상태는 인접한 아군 및 적군 에이전트에 밀접한 영향을 받는다는 일반적인 관점과 배치된다.

Accuracy of prediction of agent’s health status. 3-Fold cross validation is used to evaluate each model trained with epoch=100

한편, 트랜스포머 인코딩 계층 수에 따른 에이전트 건강상태 분류 정확도 차이가 작은 것을 확인할 수 있다. 정확도는 모델이 Test 데이터셋에 대해 예측한 결과, 즉 True Positve (TP)와 True Negative (TN)을 기반으로 계산되는 점을 고려해 볼 때, 실험 오차와는 별개로 학습된 모델의 분류 능력에 따라 정확도가 다른 것으로 해석할 수 있다. 또한, PCM을 제외한 모든 임베딩의 경우(즉, PCMC, CMC, PMC, PCC) 최적의 트랜스포머 인코딩 계층 수가 3 이상인 것을 [Table 4]에서 확인 할 수 있다. 이는 고정된 입력 임베딩으로부터 트랜스포머 인코딩 계층만 학습하는 PCM 보다 학습과정에서 입력 임베딩이 변하는 경우 더 많은 트랜스포머 인코딩 계층이 필요한 것으로 해석된다. 마지막으로 Categorical Embedding과 Contextual Embedding은 동일한 정보인 Agent Type, Force, Posture, Weapon Type을 활용하지만, [Table 4]에 보면 정확도 차이가 있다. 이는 Categorical Embedding은 무작위 값에서 학습을 거쳐 생성되는 반면, Contextual Embedding은 사전 학습된 BERT 모델이 제공하는 임베딩을 추가 학습 없이 활용하기 때문이다.

[Fig. 7] 와 [Fig. 8]은 제안하는 모델을 학습 할 때 epoch에 따른 Train loss와 정확도를 나타낸다. 트랜스포머 인코딩 계층 수와 모델 종류에 상관없이 epoch이 20 이상인 경우에 정확도가 수렴하는 것을 확인할 수 있다.

[Fig. 7]

Train loss and accuracy for PCMC with different number of transformer encoding layers when epoch=90

[Fig. 8]

Train loss and accuracy of different models when 5 transformer encoding layer is trained with epoch=90

4.4 Comparison to Other Models

본 논문에서 제안하는 트랜스포머 아키텍쳐 기반의 PCMC 모델의 성능 검증을 위해 합성곱 신경망 및 다층퍼셉트론 모델과 비교분석 한다. [Fig. 9] 와 [Fig. 10]은 각각 합성곱 신경망 및 다층퍼셉트론 모델의 입력값을 나타내며, [Table 5]는 각 모델의 구조를 나타낸다. 트랜스포머 구조와 마찬가지로, 에이전트 임베딩 수에 제약받지 않도록, M 값(즉, 최대 에이전트 수)를 활용해 합성곱신경망과 다층퍼셉트론 구조를 설계하고, PAD를 적용했다.

[Fig. 9]

Input structure to CNN models. Embedding-wise vectors are used to feed the CNN models

[Fig. 10]

Input structure to MLP models. One dimensional agent embeddings are used to feed the MLP models

CNN and MLP structures. e is an expansion factor. SGD optimizer with learning rate 0.1 is used to train the model

[Table 6]는 각 모델별 에이전트 건강상태의 분류 정확도를 나타낸다. 실험결과 본 논문에서 제안하는 트랜스포머 아키텍쳐 기반의 PCMC 모델의 분류 정확도가 가장 높은 것을 확인할 수 있다. 또한, 다층퍼셉트론 모델이 합성곱신경망 모델보다 정확도가 높은데, 이는 모델에 입력되는 에이전트 임베딩이 다르기 때문이다. 즉, [Table 4]에서 제시한 것처럼 트랜스포머 아키텍처에 입력되는 다양한 임베딩 중 PCMC의 정확도가 가장 높은 것처럼 Positional embedding, Context embedding, GridMap embedding, Categorical embedding을 결합하고 정규화시킨 에이전트 임베딩이 에이전트의 상태를 가장 잘 표현하고, 이를 입력받는 다층퍼셉트론 모델이 잘 학습되었다고 해석 할 수 있다.

Comparison of accuracy. 3-Fold cross validation is used to evaluate each model trained with epoch = 100s


5. 결 론

본 논문은 전장 상황을 인지하는 인공지능 모델을 제안했다. 이를 위해 전장 상황, 특히 전투/교전 상황을 인식하는데 필요한 데이터를 정의했고, 관련 전장 데이터를 구축했다. 인공지능 모델을 학습하기 위해 아군 및 적군 에이전트의 특징과 위치를 인코딩하는 방법을 제시하였고, 다양한 시나리오, 다양한 맵에서 작전을 수행하는 에이전트의 건강 상태를 예측 할 수 있도록, 에이전트 수에 제한받지 않고 확장 가능한 트랜스포머 아키텍처를 적용했다. 또한, ablation test를 통해 에이전트 임베딩에 중요한 영향을 미치는 특징정보를 분석했다. 또한, 3-Fold 교차 검증(cross-validation)을 통해 실험결과의 신뢰도를 높이고, 제안하는 모델이 합성곱 신경망 및 다층퍼셉트론 모델(MLP) 보다 성능이 우수함을 입증해 제안하는 트랜스포머 구조의 모델 설계타당성을 제시했다.

향후 다양한 전장 시나리오를 설계하고, 더 많은 개별 에이전트 정보를 식별하여 대규모 전장 데이터셋을 구축하고 모델을 학습 및 평가할 계획이다.

Acknowledgments

This work was supported by Korea Research Institute for defense Technology planning and advancedment (KRIT) grant funded by the Korea government (DAPA (Defense Acquisition Program Administration)) (No. 21-107-E00-009-02, “Realtime complex battlefield situation awareness technology”)

References

  • C.-E. Lee, J. Baek, J. Son, and Y.-G. Ha, “ Deep AI military staff: Cooperative battlefield situation awareness for commander’s decision making,” The Journal of Supercomputing, vol. 79, no. 6, pp. 6040-6069, Apr., 2023. [https://doi.org/10.1007/s11227-022-04882-w]
  • A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in neural information processing systems, vol. 30, 2017, [Online], https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf, .
  • Y. Li, “Deep reinforcement learning: An overview,” arXiv, 2017, [Online], https://arxiv.org/abs/1701.07274, .
  • DARPA, “Defense Advanced Research Projects Agency,” [Online], https://www.darpa.mil, , Accessed: 09 23, 2023.
  • Association of Research Libraries, “Establish a Universal, Open Library or Digital Data Commons,” [Online], https://www.arl.org/resources/establish-a-universal-open-library-or-digital-data-commons/, , Accessed: 09 23, 2023.
  • W. Guo, J. Wang, and S. Wang, “Deep Multimodal Representation Learning: A Survey,” IEEE Access, vol. 7, pp. 63373-63394, May, 2019. [https://doi.org/10.1109/ACCESS.2019.2916887]
  • R. Krishna, Y. Zhu, O. Groth, J. Johnson, K. Hata, J. Kravitz, S. Chen, Y. Kalantidis, L.-J. Li, D. A. Shamm, M. S. Bernstein, and L. Fei-Fei, “Visual genome: Connecting language and vision using crowdsourced dense image annotations,” International journal of computer vision, vol. 123, pp. 32-73, Feb., 2017. [https://doi.org/10.1007/s11263-016-0981-7]
  • Z. Wang and J.-C. Liu, “Translating math formula images to latex sequences using deep neural networks with sequence-level training,” International Journal on Document Analysis and Recognition (IJDAR), vol. 24, no. 1-2, pp. 63-75, Noc., 2021. [https://doi.org/10.1007/s10032-020-00360-2]
  • J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” arXiv:1810.04805, 2018, [Online], https://arxiv.org/abs/1810.04805, .
백 재 욱

2015 한양대학교 융합전자공학부(공학사)

2020 한국과학기술원 전기 및 전장공학과(공학박사)

2020 한국과학기술원 정보전자연구소(박사후연구원)

2020~현재 한국전자통신연구원(선임연구원)

관심분야: Military AI, 인공지능, 로봇, 상황인지

전 성 우

1998 연세대학교 환경에너지공학부(이학사)

2004 충북대학교 전산학과(이학석사)

2007 UST 컴퓨터소프트웨어공학(박사수료)

2011~현재 한국전자통신연구원(선임연구원)

관심분야: Military AI, 인공지능, MUM-T, 상황인지

김 광 용

1991 충남대학교 컴퓨터공학과(공학사)

1993 충남대학교 컴퓨터공학과(공학석사)

1998 충남대학교 컴퓨터공학과(공학박사)

1998~2000 시스템공학연구소 Post-Doc

2000~현재 한국전자통신연구원(책임연구원)

관심분야: Military AI, 인공지능, MUM-T, 상황인지

이 창 은

1996 한양대학교 전자공학과(공학사)

1998 한양대학교 전자공학과(공학석사)

2017 충남대학교 정보통신학과(공학박사)

1998~1999 LG 산전(연구원)

1999~2001 엘지오티스엘리베이터(연구원)

2001~현재 한국전자통신연구원(책임연구원)

관심분야: Military AI, 인공지능, 로봇, 상황인지

[Fig. 1]

[Fig. 1]
Framework to collect battlefield situation data

[Fig. 2]

[Fig. 2]
Mapping from agent information to Categorical embedding

[Fig. 3]

[Fig. 3]
Mapping from agent information to GridMap embedding

[Fig. 4]

[Fig. 4]
Two dimensional positional encoding for GridMap embedding

[Fig. 5]

[Fig. 5]
Mapping from agent information to Contextual embedding

[Fig. 6]

[Fig. 6]
Our model to predict health status of agents

[Fig. 7]

[Fig. 7]
Train loss and accuracy for PCMC with different number of transformer encoding layers when epoch=90

[Fig. 8]

[Fig. 8]
Train loss and accuracy of different models when 5 transformer encoding layer is trained with epoch=90

[Fig. 9]

[Fig. 9]
Input structure to CNN models. Embedding-wise vectors are used to feed the CNN models

[Fig. 10]

[Fig. 10]
Input structure to MLP models. One dimensional agent embeddings are used to feed the MLP models

[Table 1]

Agent’s 4 health status

ID Human Robot
0 No injury No damage
1 Slight injury Slight damage
2 Moderate injury Moderate damage
3 Fatal injury Destroyed

[Table 2]

Parameters for training our model

Parameters Value
Hidden vector dimension 768
Learning rate 1e-4
Number of multi-head attention 8
Batch size 8
Dropout probability 0.1
Maximum number of agents for each scenario 50
Number of Transformer encoding layers 2,3,4,5

[Table 3]

Settings for ablation test

Positional
Embedding
Context
Embedding
GridMap
Embedding
Categorical
Embedding
PCMC o o o o
CMC x o o o
PMC o x o o
PCC o o x o
PCM o o o x

[Table 4]

Accuracy of prediction of agent’s health status. 3-Fold cross validation is used to evaluate each model trained with epoch=100

PCMC CMC PMC PCC PCM
2 Layers 0.9962 0.9888 0.9958 0.9962 0.9894
3 Layers 0.9959 0.9888 0.9962 0.9961 0.9880
4 Layers 0.9958 0.9892 0.9956 0.9954 0.9871
5 Layers 0.9964 0.9886 0.9959 0.9962 0.9877

[Table 5]

CNN and MLP structures. e is an expansion factor. SGD optimizer with learning rate 0.1 is used to train the model

Models Structures
CNN 1st layer in_channels = M, out_channels = M × e, kernel_size = 3, stride = 2
2nd layer in_channels = M × e , out_channels = M, kernel_size = 3, stride = 2
MLP 1st layer in_features = M , out_features = M × e
2nd layer in_features = M × e , out_features = M

[Table 6]

Comparison of accuracy. 3-Fold cross validation is used to evaluate each model trained with epoch = 100s

Accuracy
Transformer, PCMC 2 layers 0.9962
3 layers 0.9959
4 layers 0.9958
5 layers 0.9964
CNN e=1 0.84
e=2 0.8264
e=3 0.8487
MLP e=1 0.988
e=2 0.9881
e=3 0.9879