LG, 오픈AI GPT·앤트로픽 클로드 뛰어넘는 '엑사원 4.5' 공개

박종진 기자
2026.04.09 10:00

"텍스트 넘어 시각 정보까지 이해하는 멀티모달 시대 진입"

엑사원 4.0과 엑사원 4.5 비교/자료제공=LG

LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'를 공개했다.

'엑사원 4.5'는 LG AI연구원이 2021년 12월 국내 최초 멀티모달 AI 모델 '엑사원 1.0'을 개발하며 축적한 기술력을 바탕으로 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)이다.

아울러 이번 모델은 독자 AI 파운데이션 모델 프로젝트에서 개발 중인 'K-엑사원'의 모달리티 확장을 위한 준비 단계다. LG AI연구원은 올해 8월 프로젝트 2차수 종료 이후 3차수 진출이 확정되면 본격적으로 모달리티 확장에 나설 계획이다. 궁극적으로 엑사원을 가상 환경을 넘어 물리적 세계를 이해하고 판단하는 피지컬 인텔리전스로 발전시키는 것이 목표다.

'엑사원 4.5'는 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 복합 문서를 정확하게 읽고 추론하는 능력에 강점이 있다. LG AI연구원은 '엑사원 4.5' 멀티모달 AI 모델의 시각 처리와 추론 성능을 평가하는 벤치마크 점수 결과를 공개했다.

'엑사원 4.5'는 STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표 평균 77.3점을 기록해 미국 오픈AI 지피티(GPT)5-mini(73.5점), 앤트로픽 클로드 소넷(Claude Sonnet) 4.5(74.6점), 중국 알리바바 큐웬(Qwen)3 235B(77.0점)를 모두 앞섰다.

일반 시각 이해를 측정하는 3개 지표와 이미지와 텍스트가 결합된 인포그래픽을 비롯해 전문 문헌 속 복합 정보를 읽어내는 문서 이해 및 추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 지피티 5-mini와 클로드 소넷 4.5, 큐웬 3-VL을 상회하는 성능을 보였다.

특히 코딩 성능 대표 지표인 라이브코드벤치(LiveCodeBench) v6에서는 81.4점으로 구글의 최신 모델 젬마(Gemma) 4(80.0점)를 넘었다.

LG AI연구원 관계자는 "시각 능력 평가 지표에서 높은 평균 점수를 기록했다는 것은 AI가 문서 속 글자나 비정형 데이터를 단순히 인식하는 수준을 넘어 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 의미"라고 설명했다.

(바르셀로나=뉴스1) 사진공동취재단 = 모바일 월드 콩그레스(MWC)2026 개막을 앞둔 1일(현지시간) 스페인 바르셀로나 인사이드 바이 멜리나 호텔 강당에서 열린 'LG유플러스-LG AI 연구원 공동 기자간담회'에서 임우형 LG AI연구원장이 'K-엑사원(EXAONE)을 비롯한 AI 파운데이션 모델 로드맵'에 대해 설명 하고 있다. Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지. /사진=(바르셀로나=뉴스1) 사진공동취재단

'엑사원 4.5'는 효율성도 갖췄다. 330억개 파라미터 규모(33B)로 지난해 말 공개한 'K-엑사원'의 약 7분의 1 크기이지만 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다. 이는 LG AI연구원이 자체 개발한 하이브리드 어텐션 구조와 멀티 토큰 예측 기반의 고속 추론 기술을 적용한 결과다. 또 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 공식 지원 언어를 확장했다.

LG AI연구원은 2024년 8월 '엑사원 3.0'을 국내 최초로 오픈 웨이트 모델로 공개한 이후 AI 연구 생태계 확장에 기여하기 위해 관련 행보를 계속하고 있다. 이날 LG AI연구원은 '엑사원 4.5'를 글로벌 오픈소스 플랫폼인 허깅페이스에 연구·학술·교육 목적으로 사용할 수 있도록 공개했다.

이진식 LG AI연구원 엑사원랩장은 "엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델"이라며 "이번 모델을 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다"고 밝혔다.

LG AI연구원은 엑사원을 한국의 역사와 문화, 사회적 맥락까지 이해하는 AI로 발전시킨다는 계획이다. 올해 1월에는 동북아역사재단으로부터 데이터를 제공받아 학습을 진행하고 있으며 고품질 데이터를 보유한 국내 다른 기관들과 협업도 논의 중이다.

김명신 LG AI연구원 신뢰안전사무국 총괄은 "한국어 능력을 갖춘 AI는 늘고 있지만 역사와 문화적 민감성을 깊이 이해하는 것은 차원이 다른 문제"라며 "엑사원은 자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 풍부한 표현력과 신뢰성을 동시에 확보한 AI로 진화해 나갈 것"이라고 말했다.

<저작권자 © ‘돈이 보이는 리얼타임 뉴스’ 머니투데이. 무단전재 및 재배포, AI학습 이용 금지>