ETRI, AI 서비스 개발 돕는 한국어 최첨단 언어모델 공개…구글 모델 대비 평균 4.5% 성능 우수

한국말을 잘 알아듣는 AI(인공지능) 서비스 기술이 개발됐다.
한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 '코버트'(KorBERT)를 온라인홈페이지에 공개했다고 11일 밝혔다.
ETRI 연구진이 공개한 모델은 두 종류다.
구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 교착어 특성까지 반영해 만든 언어모델이다.
언어처리를 위한 딥러닝 기술을 개발하기 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다.
이를 위해 그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델 ‘버트’(BERT)를 사용했다.
버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다.
구글은 40여만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다.
하지만 ETRI 연구진은 여기에 지난 10년간의 신문기사와 백과사전 정보를 얹었다. 45억개의 형태소를 더 학습시킨 것이다. 이를 통해 구글보다 많은 한국어 데이터를 기반으로 하는 언어모델을 만들었다.
하지만 단순히 입력한 데이터 양만을 늘리는 것은 언어모델 고도화에 한계가 있다.
한글은 다른 언어와 달리 어근에 조사가 붙는 교착어다. 이에 연구진은 한국어의 의미 최소 단위인 형태소까지 고려해 한국어특성을 최대한 반영한 언어모델을 만드는데 심혈을 기울였다.
개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했다. 특히 단락 순위화 기준에서는 7.4%가 높았다.
연구진의 언어모델을 활용하면 서비스 성능 및 경쟁력을 높일 수 있어 딥러닝 연구, 교육 등의 목적으로 대학, 기업, 기관의 개발자들의 많은 활용이 이뤄질 것으로 예측된다.
코버트는 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용 가능하다.
독자들의 PICK!
ETRI 김현기 박사는 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다”고 말했다.