과학기술정보통신부와 한국지능정보사회진흥원은 기존 AI 허브 데이터를 최신 생성형 AI 기술 환경에 맞게 재가공하는 'AI 학습용데이터 업사이클링' 사업을 진행한다고 7일 밝혔다.
LLM(거대언어모델)과 피지컬 AI 분야를 중심으로 총 30종의 데이터셋을 재가공(30억원 규모)해 학습 데이터 신규 구축 대비 비용을 줄일 수 있다.
LLM 분야에선 기존 텍스트 데이터에 질문-근거 검토-오류 검증-답변 확정에 이르는 추론 과정을 포함한다. 단순히 정답을 제시하는 것에 그치지 않고 복잡한 문제 해결이 가능한 추론형 AI 학습 기반을 마련한다는 목표다.
피지컬 AI 분야에선 기존 이미지·영상 데이터를 기반으로 시각 정보(V), 언어명령(L), 행동 및 제어(A)를 통합한 구조로 데이터를 고도화한다. 이에 따라 상황 변화와 객체 간 상호작용을 이해하고 목표 기반 행동을 생성할 수 있는 데이터로 확장한다. 여기엔 자율주행드론 비행 영상, K-pop 안무 영상, 사람 인체/자세 3D 데이터 등이 포함됐다.
과기정통부는 AI 허브에 업사이클링된 데이터를 공개해 기업, 연구기관, 스타트업 등이 자유롭게 활용할 수 있도록 할 예정이다. 이번 사업으로 데이터의 품질과 적합성을 높이고 다양한 AI 환경에서 활용 가능한 구조로 개선한다.
최동원 과기정통부 인공지능인프라정책관은 "업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 AI 학습용 데이터를 확보할 수 있을 것"이라며 "이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다"고 말했다.