"피지컬 AI 시대의 목표는 처음 접하는 환경에서도 빠르게 적응해 인간이 원하는 목표를 수행하는 로봇이 보편화되는 것입니다. 단순히 움직이기만 하는 비 지능형 로봇과는 차원이 다릅니다. 이러한 구현은 '월드 파운데이션 모델(World Foundation Model)'을 통해 가능합니다."
23일 장한용 엔씨소프트 Physical AI Lab 실장은 서울 여의도 콘래드 호텔에서 'K-과학기술이 만드는 피지컬 AI 생태계: 반도체, 로봇, 데이터'를 주제로 열린 '2026 키플랫폼'(K.E.Y. PLATFORM 2026) 특별세션 1의 기조 강연에서 이렇게 말했다.
월드파운데이션모델은 세상을 '상상'할 수 있는 차세대 AI 모델이다. 방대한 영상 데이터를 학습해 중력·관성 등 물리 법칙과 인과관계를 이해하고, 현실적으로 가능한 미래 상황을 시뮬레이션한다. 텍스트와 이미지를 넘어 3차원 공간과 시간 개념까지 학습해 로봇·자율주행 등 피지컬 AI가 안전하게 학습·추론할 수 있는 가상 환경, 즉 디지털 트윈 역할을 수행한다.
장 실장은 "주변 환경을 충분히 학습하지 못한 로봇은 새로운 환경에선 적응력이 떨어질 수밖에 없다"며 "예를 들어 방 청소 로봇도 월드파운데이션모델 학습을 못 했다면 쓰레기통 위치만 바뀌어도 제대로 작동하지 않는다"고 했다. 이어 "작업 달성률이 50% 수준까지 떨어질 수 있다는 분석도 있다"고 말했다.
향후 피지컬 AI 시대의 성패를 좌우할 핵심 기술이 '월드파운데이션 모델'이란 것이다. 이미 이를 적용하려는 시도도 이어진다. 대표적인 기업이 테슬라다. 테슬라는 차량에 장착된 다수의 카메라와 센서를 통해 주변 환경을 데이터화하고, 이를 기반으로 도로 환경에 대한 월드모델을 구축해 자율주행(오토파일럿)을 고도화했다.
장 실장은 월드파운데이션모델을 영화 '매트릭스'에 비유했다. 그는 "머릿속에서 상황을 그리면 그에 맞춰 로봇이 어떻게 움직일지를 시뮬레이션한다"며 "이런 모델을 활용하면 미래 상황을 예측하는 동시에 다양한 환경을 가정해 학습할 수 있다"고 했다. 이어 "이 과정에서 축적된 경험을 바탕으로 작은 변수에도 유연하게 대응할 수 있는 범용성을 확보하게 된다"고 말했다.
현재 월드파운데이션모델은 할루시네이션(환각) 등 기술적 한계를 완전히 극복하진 못했다. 예를 들어 낙엽을 바람으로 쓸어내는 상황에서 오히려 낙엽이 모이거나, 비커에 물을 따르기도 전에 차 있는 것처럼 보이는 등 물리 법칙이 왜곡되는 현상이 나타난다는 것이다. 장 실장은 "질량 보존 등 기본적인 물리 개념에서도 오류가 발생하는 만큼 추가적인 기술 개발이 필요하다"고 말했다.
이를 위해선 장 실장은 △메모리 성능 개선 △학습 데이터 확충을 과제로 꼽았다. 언어 이해 능력도 더 정교해져야 한다는 지적이다. 그는 "일반 AI는 오류가 발생해도 수정이 가능하지만, 피지컬 AI는 오동작 시 되돌릴 수 없는 문제가 발생할 수 있다"며 "한국어 이해 부족으로 인한 오류를 막기 위해서라도 언어 기술 고도화가 필수적"이라고 했다.
마지막으로 그는 "아직 완전히 실생활에 적용하기는 어려운 만큼, 우선은 좁은 영역에서부터 시작해야 한다"며 "도메인 특화 월드모델을 구축한 뒤 점진적으로 확장해 나가는 방식이 필요하다"고 말했다.