[기고] AI 에이전트, '도메인의 깊이'가 승부 가른다

지난해 가을부터 산업 현장의 화두는 하나로 수렴되고 있다. '생성하는 AI'에서 '행동하는 AI'로의 전환이다. 챗봇이 답을 내놓던 시대를 지나, 이제 AI 에이전트는 스스로 계획을 세우고 도구를 호출하며 업무를 완결한다. 가트너는 2028년까지 기업용 애플리케이션의 33% 이상이 에이전틱 AI 기능을 탑재할 것으로 전망했고, 글로벌 시장조사기관들은 AI 에이전트 시장이 향후 5~6년간 연평균 45%를 웃도는 속도로 성장할 것이라고 입을 모은다.

그러나 이 변화의 본질을 'LLM(거대언어모델)의 또 다른 진화'로만 읽는다면 절반만 본 것이다. 필자는 지난 10여 년간 제조·금융·보험·유통 등 다양한 산업의 AI 도입 현장을 지켜봐 왔다. 그 경험에서 분명히 말할 수 있는 것은, 에이전틱 AI의 진짜 시험대는 모델의 성능이 아니라 '도메인 깊이로의 침투'에 있다는 점이다.

범용 LLM은 잘 만들어진 도구지만 산업 현장 그 자체를 알지는 못한다. 제조 라인의 공정 파라미터, 보험사의 언더라이팅 규칙, 호텔의 객실 운영은 인터넷에 공개된 텍스트로 학습되지 않는다. 더 본질적으로 LLM은 '확률적 앵무새'다. 다음 토큰을 그럴듯하게 예측할 뿐 자신이 무엇을 모르는지 모른다.

사람이 한 번 더 검토할 여유가 있을 때는 큰 문제가 되지 않지만, 에이전트가 가격을 조정하고 정산을 마감하는 순간 '확신에 찬 오답'은 곧 손실이 된다. 환각을 줄이려면 모델 규모만으로는 부족하며, 도메인 특화 데이터와 개념·관계를 표현한 지식 구조, 검증 가능한 추론 경로가 함께 설계되어야 한다.

해외에서는 이 방향이 이미 실증되고 있다. 소프트웨어 엔지니어링 분야의 데빈(Devin), 고객 관리 영역의 세일즈포스 에이전트포스(Agentforce), 스트라이프 레이더의 자율 사기 탐지 에이전트는 모두 '일반적인 똑똑함'이 아닌 '좁고 깊은 똑똑함'으로 성과를 냈다. 산업 워크플로를 잘게 쪼개 단계별로 전문 에이전트를 배치하고, 각 에이전트가 레거시 시스템을 손발처럼 호출하도록 설계한 점이 공통된다. '하나의 만능 AI'가 아니라 '협업하는 여러 전문가 AI'가 답이라는 사실이 입증되고 있다.

문제는 한국이다. 파운데이션 모델 경쟁은 미국과 중국이 주도하고 있어 정면 승부로 따라잡기는 어렵다. 한국이 설 자리는 산업 도메인 데이터와 운영 노하우가 깊게 축적된 분야에서 멀티 에이전트와 도메인 온톨로지를 결합한 '수직형 AI'를 만들어내는 데 있다. 한국의 진짜 자산은 GPU 보유량이 아니라 제조·물류·관광·금융 현장의 풍부한 운영 데이터와 숙련된 도메인 전문가다.

이 관점에서 흥미로운 영역이 관광·숙박업이다. 한 호텔이 십수 개의 이질적인 내부 운영 시스템(PMS, CMS 등)과 외부 판매 채널(OTA, 커머스 등)에 의존하면서도 데이터는 서로 다른 스키마로 흩어져 있다. 반복적 의사결정은 인력난 속에서도 사람의 손에 남아 있고, '외국인 관광객 3000만 시대'라는 아젠다와 별개로 그것을 받아낼 운영 인프라는 20년 전 구조에 머물러 있다. 데이터 통합, 도메인 온톨로지, 멀티 에이전트 협업 같은 AI 연구의 핵심 주제들이 한꺼번에 시험대에 오르는 산업이라는 점에서, 연구자 입장에서는 매우 흥미로운 케이스다.

독자들의 PICK!

국내에서도 이 문제를 정공법으로 풀려는 시도가 시작됐다. 여행 스타트업 올마이투어의 '프로젝트 탈로스(Project Talos)'가 그 예다. 기존 운영 시스템을 교체하지 않고 그 위에 '온톨로지 레이어'를 얹어 분산 데이터의 의미 관계를 표준화하고, 그 지식 그래프 위에서 도메인 특화 에이전트들이 협업하는 구조다.

AI가 일하는 과정에서 도메인 지식이 데이터로 축적되도록 설계돼 '완벽한 데이터를 기다리다 결국 시작하지 못하는' 산업 AI의 흔한 실패 패턴을 피한다. 팔란티어가 정립한 '현장 상주형 개발(FDE)' 모델을 차용한 점도, 도메인 지식이 코드에 녹아들려면 결국 현장과 부딪혀야 한다는 산업 AI의 오랜 교훈을 따른다.

물론 이 길이 매끄럽지만은 않다. 에이전트는 잘못된 가격을 제시할 수 있고 정산 검증에서 오탐과 미탐이 발생할 수 있다. 의사결정 로그를 추적 가능하게 기록하고 위험도 높은 결정은 사람이 최종 승인하는 'Human-in-the-Loop' 구조가 필요하다. 자율 시스템은 통제보다 복구 가능성이 더 중요하며, 평가 기준 역시 '얼마나 적게 틀리는가'가 아니라 '틀렸을 때 얼마나 빠르게 되돌릴 수 있는가'여야 한다. 이는 도메인을 알지 못하면 설계할 수 없다.

지난 20여년간 산업 AI 연구를 지켜본 입장에서 기술의 우위는 모델의 크기가 아니라 '문제를 정의하는 해상도'에서 갈렸다. 에이전틱 AI 역시 다르지 않을 것이다. 어떤 도메인의 어떤 의사결정을 어디까지 위임할 것인지, 그 경계를 정밀하게 그릴 수 있는 연구자와 산업이 결국 의미 있는 결과를 만들어낸다. 모델은 빠르게 평준화되겠지만, 도메인의 깊이와 거버넌스 설계 역량은 쉽게 복제되지 않는다. 한국이 가야 할 길도 여기에 있다.

[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

머니투데이