[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]
멀티모달 영상 AI(인공지능) 스타트업 트웰브랩스가 영상 속 맥락을 완벽히 이해해 스스로 구조화된 데이터를 생성하는 차세대 영상 추론 AI 모델 '페가수스 1.5(Pegasus 1.5)'를 전격 출시했다고 21일 밝혔다.
트웰브랩스는 업데이트를 통해 '시간 기반 메타데이터(Time Based Metadata)' 추출 기능을 도입했다. 기존에는 AI가 영상을 시청하고 분석하는 수준이었다면 페가수스 1.5는 사용자가 정의한 기준에 따라 영상을 정밀하게 구간 분할하고 시작과 종료 시점을 정해 상세 내용을 구조화된 데이터로 추출할 수 있다.
이 기능을 활용하면 수천시간 분량의 영상을 일일이 확인하던 수작업을 자연어 명령 하나로 자동화할 수 있다. 예컨대 "뉴스 앵커가 바뀔 때마다 구간을 나눠줘", "날씨 코너만 분리해줘"라고 입력하면 전체 영상이 자동으로 챕터화된다. 이렇게 분절된 영상은 즉시 숏폼 콘텐츠로 재가공하거나 아카이브에 등록할 수 있어 미디어, 엔터테인먼트, 스포츠 업계의 콘텐츠 제작 효율이 강화될 것으로 보인다.
페가수스 1.5는 텍스트 전사를 넘어 시각, 청각, 맥락 신호를 통합 분석하는 기술을 갖췄다. 화면 컷 편집이나 카메라 앵글 등 저수준 시각 신호부터 대화 주제 전환 같은 고수준 맥락 신호, 발화자 교체 등 오디오 신호를 종합해 완벽한 구간 경계를 찾아낸다.
특히 이미지 한 장만으로도 영상 속 대상을 찾아내는 '멀티모달 쿼리' 기능을 강화했으며, 최대 2시간 분량의 긴 영상도 단일 API 호출만으로 정밀하게 구조화할 수 있다.
트웰브랩스에 따르면 페가수스 1.5는 구글의 제미나이 3.1 프로(Gemini 3.1 Pro) 대비 구간 분할 정확도에서 13.1% 높은 성능을 기록했다. 구간의 시간 경계 정확도는 약 350밀리초 이내로 유지되며, 별도의 전처리 작업 없이 원본 영상 파일만으로 즉시 JSON 형식의 안정적인 결과물을 도출한다.
이재성 트웰브랩스 대표는 "영상 안에 무엇이 있는지 아는 것과 그것이 정확히 어디에 있는지를 찾아내는 것은 전혀 다른 차원의 문제이며, 페가수스 1.5는 이 두 번째 질문을 본격적으로 해결한 첫 모델"이라고 강조했다. 이어 "사용자가 기준만 정의하면 AI가 필요한 장면을 자동 추출하는 방식이 보편화될 것"이라며 "앞으로 영상 콘텐츠는 기업이 자유롭게 가공하고 활용하는 데이터 자산으로 확장될 것"이라고 말했다.
한편 트웰브랩스는 아마존 베드록(Amazon Bedrock)에 입점한 첫 한국 AI 모델이자 최초의 영상 AI 모델 개발사다. 기술력을 인정받아 엔비디아, 삼성전자, SK텔레콤, 인텔 등으로부터 투자를 유치하며 누적 투자액 1억700만달러를 기록했다.
[머니투데이 스타트업 미디어 플랫폼 유니콘팩토리]