저널 원본:
본 논문에서는 추가 사전학습(further pre-training)을 통해 군사 도메인에 특화된 BERT 모델을 제안한다. 모델 학습을 위해 국방일보와 군사뉴스로부터 110만 개의 군사 문장과 6,900개의 군사용어를 수집하여 코퍼스를 구축하였다. 이후, KcBERT토크나이저에 대량의 군사 도메인 말뭉치를 이용하여 군사 도메인 지식을 추가로 학습시키고, MLM(masked language modeling)학습을 통해 모델을 훈련했다.
1. 관련 연구
BERT는 MLM 방식을 통해 주변 단어들의 양방향 관계를 학습한다. 이는 주어진 문장 내의 단어를 [MASK] 토큰으로 변환하여 주변 맥락을 통해 토큰이 된 단어를 예측함으로써 양방향 정보를 모두 반영한 텍스트를 학습할 수 있게 한다.
BERT의 높은 성능은 임베딩(embedding) 방식에 기인한다. 임베딩은 토큰(token) 임베딩, 세그멘트(segmentation)임베딩, 위치(position)임베딩으로 나뉜다. 토큰 임베딩은 입력 텍스트의 단어나 형태소를 고정된 차원의 벡터로 변환하는 과정이다. 세그먼트 임베딩은 입력 텍스트에서 각 토큰이 속한 문장을 구분하는 역할을 한다. 위치 임베딩은 각 토큰의 위치정보를 포함한다. 이는 트랜스포머 구조의 경우 입력 토큰이 독립적으로 처리되어 단어 순서와 문맥 정보를 이해하기 위해서는 위치정보가 필요하기 때문이다.
이후에는 fine-tuning을 통해 언어모델의 parameter를 재학습을 통해 조정하는 과정을 거친다.
2. 제안 모델


3. 실험 및 결과
성능 비교는 군사 문장의 2개의 하위 분류를 구분하는 binary text classification 를 수행했다. 평가지표로는 precision, recall, f1-score, accurac를 측정하였다.


MIL-BERT 모델이 모든 평가지표에서 가장 우수했다.
4. 결론
본 논문에서는 군 내에서 공연히 사용되는 약어나 은어에 대한 학습이 부족하므로, 향후 이에 관한 추가적인 연구가 필요하다고 한다. 특히 군사용어의 경우 사회에서 흔히 사용하는 용어와 동음이의어 관계인 경우가 있어 이를 분류하는 연구가 필요하고, 학습용 데이터의 양을 늘려 정확도를 개선하는 것을 진행할 예정이라고 한다.