[MT리포트-생성AI 대전 2라운드] ⑤ 韓, 방향성 고심…"글로벌 빅테크 무관심한 소수언어권 노려야"

글로벌 빅테크 기업이 각축전을 벌이는 상황에서 오히려 한국은 다소 소외되는 분위기다. 한국은 전 세계서 3번째로 거대 언어모델(LLM)을 구축했지만 발전속도는 더디다는 비판이 줄을 는다. MS와 구글이 경쟁적으로 서비스를 내놓고 있지만, 네이버(NAVER(252,500원 ▼3,000 -1.17%))·카카오(57,400원 ▼1,400 -2.38%)로 대표되는 국내 빅테크는 여전히 대중이 체감할 수 있는 기술을 내놓지 못하고 있어서다.
이 때문에 천문학적 비용이 드는 LLM을 직접 구축하기보단 글로벌 빅테크의 모델의 '체크포인트'를 가져와 전문 AI 모델을 만들거나 API를 활용해 버티컬(특정 산업분야) 서비스를 내놓는 방안이 더 효율적이란 목소리가 나온다. GPT-4의 API를 활용하면 개발비 부담은 줄어드는데 GPT-4의 성능은 유지하면서 기업 특성에 맞는 서비스를 구현할 수 있어서다.
손병희 국민대 소프트웨어융합학부 교수는 "글로벌 빅테크 LLM의 체크포인트를 가져오면 백지 상태에서도 해당 모델의 학습능력을 이식할 수 있다"라며 "여기에 각 사가 보유한 데이터를 대입해 각 도메인(분야)에 특화된 전략으로 가면 발빠르게 대응할 수 있다"고 조언했다.
더욱이 GPT-4는 다국어 지원을 강화, 한국어 서비스가 3.5버전의 영어능력을 능가하는 것으로 나타났다.
AI업계 관계자는 "국내 AI 기술 수준이 낙후되진 않았으나, 인프라·컴퓨팅환경·데이터가 부족하다보니 환경적인 측면으로 빨리 성장하지 못했다"라며 "세계 시장에서 경쟁력을 갖기 위해선 카카오가 주장하는 것처럼 작지만 전문성을 갖춘 모델을 개발해 챗GPT가 커버하지 못하는 부분을 노리는 게 필요해 보인다"고 말했다.
반면, 글로벌 기술패권에서 살아남으려면 국산 LLM이 필요하다는 반론도 있다. 특히 소수언어를 쓰는 국가로선 영어 중심의 LLM이 비용면에서 비효율적이란 지적이다.
GPT토크나이저에 따르면 "오늘 저녁 메뉴는 스테이크지."라는 16개 문자(공백포함)로 구성된 문장을 GPT-3에서 처리하면 토큰 36개로 계산된다. 토큰이란 LLM 사용료를 측정하는 단위다. GPT-4에서도 21개 토큰이 필요하다. 반면 "Today's dinner menu is steak."라는 영어 문장은 29개 문자로 구성됐지만, GPT-3에서는 단 7개 토큰만 사용한다.
GPT-3.5 이용료는 1000토큰에 0.002달러(약 2.6원)였는데, GPT-4는 같은 양에 0.03달러(39.3원)로 직전 모델보다 약 15배 비싸졌다. 이처럼 생성 AI 사용료가 꾸준히 오르는 상황에서 영어 중심의 생성 AI는 한국처럼 비영어권 국가엔 다소 비싼 모델이다.
만약 "오늘 저녁 메뉴는 스테이크지."를 네이버 하이퍼클로바에서 처리할 경우 토큰 7개로 계산된다. 한국어 중심 LLM을 만들면 자음·모음처럼 작은 단위가 아니라 의미 단위로 토큰을 끊을 수 있어 경제적이라는 설명이다.
독자들의 PICK!
하정우 네이버 AI연구소장은 "오픈AI와 구글, 메타는 미국에서 영어로 경쟁하기에 바빠 다른 언어를 둘러볼 여유가 없다"며 "이때 우리는 한국어를 중심으로 한국어 LLM을 만들고, 비슷하게 일본어를 중심으로 만들어 일본에, 또 아랍어를 중심으로 만들어 중동 시장에 나가면 된다"고 설명했다.