# 국내 한 IT 대기업 A사의 개발팀 직원들이 사용할 업무용 AI(인공지능)를 개발했다. 그런데 개발팀의 바람과 달리 AI를 회사 전체에 곧바로 도입하지는 못했다. 경영진 입장에선 AI를 사용할 때 직원들의 생산성이 얼마나 상승하는지, 품질에 변화는 없는지 따져 봐야 하기 때문이다. 이제 개발팀의 과제는 '어떻게 AI를 개발할지'가 아니라 '어떻게 AI의 생산성과 품질 효과를 평가할지'로 옮겨갔다.
# AI 스타트업 C사는 올해 하반기 상장을 위해 본격적으로 준비 중이다. 그런데 최근 배포된 기술특례상장 심사 가이드라인을 보고 고민에 빠졌다. 평가 항목에 AI 애플리케이션이 생산성 향상 등 실질적 효익을 달성하도록 지원하는지 여부는 물론 실제 업무환경에서 얼마나 효율적으로 과업을 완수하는지가 포함돼 있기 때문이다. 이에 C사는 AI의 효율성을 어떻게 입증해야 하는지가 올해 사내 최대 화두가 됐다.
기업들의 AI에 대한 관심이 '평가'로 확장되고 있다. 필자가 진행해온 산학공동 연구사례에서도 이러한 경우가 자주 나타난다. 점점 더 많은 기업이 AI를 얼마큼 도입(또는 채용)해야 하고 도입할 경우 생산성이 얼마나 증가하고 비용은 얼마나 절감하는지를 명확하게 알고 싶어하는 것이다. 여기에 보안 문제는 없는지, 혹시나 예상하지 못했던 리스크가 발생하지는 않을지 등 기술 경영적 이슈를 점검하고 싶어 한다.
평가가 중요해진 건 AI가 사람과 직접적으로 협업하거나 경쟁하는 디지털 노동력(Digital workforce)으로 인식되면서부터 나타난 변화다. 최근 산업계에 투입되는 AI 에이전트는 구체적인 지시만 수동적으로 따르는 AI 지원 도구에 그치지 않는다. AI 에이전트는 사람 대신 마우스와 키보드를 조작하고, 인터넷에서 직접 자료를 수집해 심층 분석 보고서를 생성한다. 인간의 노동력을 완전히 대체할 수 있는 자율성을 가진 노동력이라는 의미다. AI가 노동력이 된 만큼 도입(채용), 관리, 교육 등 평가가 필요해질 수밖에 없다.
문제는 아직 노동력으로서 AI를 평가할 수 있는 방식이 마땅치 않다는 점이다. 전통적인 평가 방식은 노동집약적이다. 예를 들어 AI의 생산성을 측정하려면 수많은 직원들의 수개월간 AI 사용 기록을 수집해야 한다. 데이터를 수집한다 해도 이를 가공하고 분석하는 데 수 개월이 필요하다.
인간과 AI의 협업 효율성(Human-AI Collaboration) 평가는 더욱 복잡하다. AI 혼자 업무를 처리했을 때, 사람이 혼자 처리했을 때, 그리고 AI가 어려움을 겪는 세부 업무를 사람과 협업해 처리했을 때를 구분해 비교 실험해야 한다. 데이터 수집과 분석 과정이 노동집약적이고 반복하기 쉽지 않다.
이에 데이터 증강(Data Augmentation) 기술과 월드 모델을 대안으로 주목할 필요가 있다. 데이터 증강 기술은 불충분한 양의 데이터를 변환·확장하여 목적에 필요한 만큼 확대 생성하게 해주는 기술이다. 다만 데이터 증강은 원본 데이터 자체를 수집하기 어려운 경우에는 적용하기 어렵다. 월드 모델은 이러한 한계를 보완해줄 수 있다. 월드 모델은 현실에서 재현하기 어려운 업무 상황을 가상환경으로 구현하고 그 틀 안에서 데이터를 생성·수집할 수 있게 한다.
이 두 가지 기술을 조합하면 소량의 현실 기반 데이터를 증강 기술로 확대하고 비용 및 위험성의 이유로 현실에서 수집하기 어려운 데이터들은 월드 모델의 가상환경에서 새롭게 확보할 수 있다. 결과적으로 수개월이 걸리던 노동집약적 평가 과정을 자동화할 수 있게 된다.
앤트로픽, 오픈AI, 세일즈포스 등 글로벌 기업들은 이미 AI 에이전트를 실제 직원처럼 업무에 투입한 뒤 이를 평가하며 관리할 수 있는 엔터프라이즈 솔루션을 준비하고 있다. 우리나라는 AI 에이전트 분야에서 글로벌 경쟁력을 갖추고 있다는 평가를 받는다. AI 및 AI 에이전트 개발뿐 아니라, 평가 영역에서도 세계를 선도하는 솔루션이 나올 수 있기를 기대해 본다.