KT, 믿음K 2.5 프로 테크 리포트 공개
"한국어 성능, 7배 큰 K-엑사원과 겨룰 수준"

KT(57,800원 ▼2,900 -4.78%)가 자체 개발한 AI 모델 '믿:음 K 2.5 프로' 테크 리포트를 공개했다. 매개변수 320억개 규모의 중형 모델이지만, 정부의 국가대표 AI 선발전 1차 평가에서 1위를 차지한 LG AI연구원의 'K-엑사원'과 성능 격차를 크게 좁힌 것으로 나타났다.
23일 KT가 공개한 테크 리포트에 따르면 믿음K 2.5 프로는 한국어 이해도를 평가하는 Ko-Sovereign 벤치마크에서 73.5점을 기록해 △LG AI연구원의 'K-엑사원 236B' △업스테이지 '솔라 오픈 100B' △알리바바 '큐웬3 30B' △네이버 '하이퍼클로바 시드 싱크 32B' 중 1위를 기록했다. 이는 KT가 한국어에 특화된 평가를 위해 자체 개발한 벤치마크다.
한국어 상식 추론을 평가하는 Ko-Winogrande 지표에서도 86.2점을 기록해 5개 AI모델 중 최고점을 받았다. 일반적으로 AI 모델은 매개변수가 많을수록 성능이 높은 경향이 있다. 이런 점에서 매개변수 320억개 규모의 믿음K 2.5 프로가 약 7배(2360억개) 큰 K-엑사원을 앞선 것은 한국어에 최적화된 설계 효과로 풀이된다.

영어 기반의 일반 성능 테스트에서도 믿음K 2.5 프로는 비슷한 규모의 AI모델(큐웬3·하이퍼클로바 시드 싱크) 대비 높은 성능을 나타냈다. 박사급 과학 문제를 푸는 GPQA-D와 기초지능·복합추론 평가인 MMLU-Pro에서 각각 72점, 81.8점을 기록해 1위에 올랐다. 수학(MATH-H) 평가에선 K-엑사원(97.36)과 비슷한 점수(96.6)를 냈고, 코딩(Human Eval+) 및 에이전트(τ2-Bench) 평가에선 K-엑사원을 제쳤다.
리포트는 "믿음K 2.5 프로는 실무적인 코드 생성과 통신 분야 에이전트 작업에서 뚜렷한 강점을 지녔다"라며 "상대적으로 작은 규모에도 대부분의 벤치마크에서 강력한 성능을 달성했고, 몇몇 핵심 평가에선 훨씬 더 큰 모델과 견줄 만한 성능을 나타냈다"고 강조했다.
믿음K 2.5 프로는 지난해 7월 공개한 믿음 K 2.0을 32B 규모로 확장한 모델이다. 지식 밀도와 추론 성능을 강화했다. 글로벌 AI 평가 플랫폼 AAII(Artificial Analysis Intelligence Index)에서 주요 모델 중 18위를 기록했다.
KT는 이달 믿음K 2.5 프로를 공식 출시하고 공공·기업 AX(AI 전환) 사업에 활용할 예정이다. KT 관계자는 "믿음K 2.5 프로는 단순 질의응답을 넘어 목표를 이해하고 외부 시스템이나 API(응용프로그램 인터페이스)를 활용해 실제 업무를 수행할 수 있는 수준"이라며 "GPU 인프라 부담을 줄인 실용적인 기업형 AI모델로, 향후 이미지와 오디오를 아우르는 멀티모달 AI로 진화시킬 것"이라고 말했다.