"같은 GPU로 2.2배 더 빠르게"…오케스트로 '콘체르토 AI' 공개

[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]

/사진제공=오케스트로

AI(인공지능)·클라우드 소프트웨어 전문기업 오케스트로가 기업의 AI 인프라 운영 효율을 높이기 위한 AI 추론 운영 플랫폼 '콘체르토 AI'를 출시했다고 29일 밝혔다.

최근 생성형 AI 도입이 확산하면서 기업 AI 인프라의 핵심 과제가 GPU(그래픽처리장치) 확보에서 추론 운영 효율화로 이동하고 있다. AI 챗봇, 업무 자동화 에이전트, RAG(검색증강생성) 서비스 등 상시 운영되는 AI 서비스가 늘어나면서 추론 연산 수요도 급증하고 있는 추세다. 특히 에이전트형 AI 환경에서는 하나의 요청이 여러 차례의 모델 호출과 반복 연산으로 이어져 추론 부하가 더욱 커질 수 있다.

오케스트로는 이러한 문제를 해결하기 위해 콘체르토 AI를 개발했다. 해당 플랫폼은 대규모 추론 요청을 분산 처리하고 GPU와 NPU(신경망처리장치) 등 가속기 자원을 작업 특성에 맞춰 배분함으로써 보유 인프라의 활용 효율을 높이는 것이 특징이다.

핵심 기술은 분산 서빙 기반의 추론 최적화다. 사용자의 질문을 이해·분석하는 작업(Prefill)과 실제 답변을 생성하는 작업(Decode)은 성격이 다른데, 기존 방식은 그동안 이를 같은 GPU에서 처리했다. 이 경우 질문이 한꺼번에 몰리면 답변 생성 작업까지 영향을 받아 전체 응답 속도가 느려질 수 있다.

반면 콘체르토 AI는 질문 분석과 답변 생성을 서로 다른 GPU 자원에 분산 배치한다. 예를 들어 일부 GPU는 질문 분석만, 다른 GPU는 답변 생성만 담당하도록 역할을 나누는 방식이다. 이를 통해 특정 작업에 요청이 집중돼도 다른 작업이 영향을 덜 받아 병목 현상을 줄이고 응답 속도를 높일 수 있다.

오케스트로에 따르면 자체 온프레미스 AI 인프라 환경에서 진행한 벤치마크 테스트 결과, 동시 요청이 집중되는 고부하 상황에서 콘체르토 AI의 분산 서빙 방식은 기존 단일 처리 방식 대비 토큰 출력 속도를 2.2배 높은 것으로 나타났다. 이는 같은 GPU 환경에서도 AI가 초당 생성하는 답변량이 2.2배 증가했다는 의미다.

김범재 오케스트로 대표는 "생성형 AI가 실제 업무 환경으로 확산되면서 기업 AI 인프라의 과제는 더 많은 GPU를 확보하는 것이 아니라 보유 자원을 얼마나 효율적으로 운영하느냐로 바뀌고 있다"며 "콘체르토 AI를 통해 기업이 AI 인프라 활용 효율을 높이고 프라이빗 AI 환경에서도 안정적으로 서비스를 운영할 수 있도록 지원하겠다"고 말했다.

한편 오케스트로는 AI·클라우드 소프트웨어 전문기업으로 클라우드 플랫폼과 AI 인프라 운영 솔루션을 개발·공급하고 있다.

[머니투데이 스타트업 미디어 플랫폼 유니콘팩토리]

머니투데이

"같은 GPU로 2.2배 더 빠르게"…오케스트로 '콘체르토 AI' 공개

독자들의 PICK!

70대 의사의 빗나간 집착…"내 아들과 결혼시키려고"

"일본 AV 배우 하고파" 고영욱에…"성범죄자가? 입국금지 시켜"

아내 절친, '동성 연인'이었다..."딸까지 낳고 살았는데" 남편 '충격'

"천하의 패륜녀 장윤정 네가 사람이냐" 모친이 보낸 편지

"며느리가 폭행" 시모 눈 퉁퉁, 갈비뼈 부러져