KISTI가 개발한 AI 평가 기술, 머신러닝 최고 권위 학회 채택

양혜영 KISTI 에이전트응용연구센터 박사 연구팀이 개발한 AI 평가기술 '트레이스' 의 추론 과정을 나타낸 표 /사진=KISTI

KISTI(한국과학기술정보연구원) 연구팀이 AI(인공지능)의 추론 과정을 평가하는 새로운 기술 '트레이스'(TRACE)를 개발해 최고 권위 국제학회에서 공개한다.

KISTI는 양혜영 에이전트응용연구센터 박사 연구팀이 개발한 AI 평가기술 '트레이스'가 '국제 머신러닝학회(ICML) 2026'에 채택됐다고 12일 밝혔다. ICML은 AI와 머신러닝 분야 세계 최고 권위의 학회로, 매년 전 세계 연구기관과 빅테크가 참석해 최신 AI 연구성과를 발표한다.

거대언어모델(LLM)은 복잡한 문제를 단계적으로 해결하는 '연쇄적 사고'를 수행한다. AI의 성능을 평가하기 위해 AI의 최종 답안만 들여다보기보다는, 어떤 과정을 거쳐 결론에 도달했는지 파악해야 하는 이유다. 하지만 지금까지의 평가 기술은 답안의 옳고 그름 여부에만 집중하는 경향이 있었다.

연구팀이 개발한 트레이스는 AI가 생성한 추론 문장을 주장, 근거, 논거, 보강 근거, 평가, 한정, 반박, 모니터링 등 8개 요소로 분해한다. 이어 각 요소의 타당성과 문장 간 논리적 연결성을 분석한다.

연구팀은 약 10만 개 추론 문장을 활용해 모델을 학습시킨 뒤 7개 주요 언어모델과 2만6000여개 추론 사례를 분석했다. 그 결과 트레이스가 매긴 점수와 실제 벤치마크 정답률 사이에 높은 상관관계가 나타났다. 또 정답 여부만을 보상 신호로 활용하던 기존 '검증가능보상 강화학습' 방식에 트레이스 평가를 추가 적용하자 LLM의 추론 성능이 더 높아졌다고 밝혔다.

양 박사는 "기존 블랙박스형 및 정답지에 의존하는 AI 평가 방식의 한계를 보완할 수 있는 새로운 평가기술"이라고 했다.

머니투데이

KISTI가 개발한 AI 평가 기술, 머신러닝 최고 권위 학회 채택

독자들의 PICK!

"유흥주점 데려가" 은퇴한 여배우...물류센터 알바 인증샷

'3000억 CEO' 여에스더 "홍혜걸 몫 유산 20%, 조치해놨다"

"본성 더러웠는데 인기 떨어지니 착한 척"…김숙, 톱스타 인성 폭로

"황정민 폭로 여성은 15살 연하...신체 접촉? 어깨에 손 올린 정도"

딸 '서울대' 보낸 신동엽, 비결은...공부보다 '이것' 강조했다

관련 기사