[인터뷰]AI 음성합성 스타트업 '휴멜로' 이자룡 대표

#. 할리우드의 유명 영화감독이자 각본가, 배우인 타이카 와이티티는 최근 트위터에 "영어로 더빙된 '오징어 게임'을 볼 필요가 없다"고 적었다. 더빙으로는 한국 배우들의 연기를 제대로 살릴 수 없다는 게 이유였다. 하지만 오징어게임 주연배우 이정재의 목소리 그대로 영어 대사가 흘러나온다면. 또는 그가 중국어, 일본어, 스페인어를 유창하게 말한다면 어떨까. 특히 이정재가 외국어에 능통해서가 아니라, AI(인공지능)가 이정재의 목소리는 물론 외국어 표현과 뉘앙스를 학습해 표현한다면? 조만간 더빙 일자리가 사라질지도 모른다.
AI 기반 음성합성(TTS) 솔루션 스타트업 '휴멜로'는 이런 상상을 이미 현실로 구현해 사업화를 추진하고 있다. 지난 22일 서울 역삼동 휴멜로 사무실에서 만난 이자룡 CEO는 "휴멜로 서비스의 키워드를 두 가지로 얘기하면 개인화와 세계화"라며 "누구의 목소리라도 2분만 녹음하면 바로 음성 합성이 가능하고, 이를 여러 나라의 언어로도 변환할 수 있다"고 소개했다.
휴멜로는 최근 KT인베스트먼트와 카카오인베스트먼트로부터 30억원 규모 프리(pre) 시리즈A 투자를 유치했는데, 이 대표는 "말 그대로 개인화(personalized) TTS를 구현하는 데 성공한 것을 높이 평가한 것 같다"고 강조했다. 또 음성 합성 시장의 성장 가능성은 무궁무진하다고 강조했다. 다음은 이 대표와의 1문1답.
-KT와 카카오의 투자를 받았다. 어떤 점을 평가받았나.
▶개인화 TTS를 구현하는데 성공한 것을 높이 평가받았다. 그것도 2~3분 정도의 짧은 샘플 녹음만 있으면 상당한 품질의 음성합성을 구현한 점을 높게 산 것 같다. 누구의 목소리라도 2분만 녹음하면 바로 음성 합성기를 만들 수 있다. 더욱이 한국어만 녹음해도 영어, 중국어, 일본어 등 다양한 언어로도 말할 수 있는 점도 인상적으로 평가받았다. 테스트가 굉장히 빠르고 비용이 저렴하다. 벌써 15명 넘는 KT와 카카오 직원의 합성 음성을 만들기도 했다. 두 곳 뿐만 아니라 이 분야 시장을 넓히고 싶은 대기업의 협업 요청이 많다.
-특장점이 있다면.
▶휴멜로는 '요소화' 기능에 자신있다. 이미지나 영상은 스타일만 추출하거나, 배경, 피사체 등 필요한 것만 뽑는 기술이 잘 돼 있는데 음성 분야에선 그런 게 잘 안 돼 있다. '완성품'이 음성이라면, 여기서 배경 잡음들을 다 제거해야 한다. 여기서 음성 속의 잡음과 목소리를 분리하거나, 음색 정보만 빼내는 기술 등이 중요하다. 그게 요소화인데, 어렵다.
-어떻게 해냈나.
▶AI를 이용해 이 같은 결과가 가능하도록 요소화 기술에 힘썼다. 그래서 목소리 종류, 감정, 음높이, 말하는 속도 등 이제 입맛대로 요소를 바꿔가면서 내가 원하는 소리를 창조할 수 있었다. 음성을 결정짓는 요소가 무엇인지를 찾아내는 과정은 시간은 걸렸지만 결국 해냈다. 적용 시장도 넓다고 생각한다.
-상용화 가능 시장은?
▶무궁무진하다. 예컨대 넷플릭스의 1위인 '오징어 게임'의 경우 휴멜로 TTS로 이정재의 음성을 학습하면 갑자기 이정재가 영어를 유창하게 보이도록 만들 수 있다. 전세계 시청자들도 이정재의 목소리와 각자의 언어로 콘텐츠를 즐길 수 있어 좋다. 지금은 한국어와 영어·중국어·일본어까지 되는데, 앞으로는 스페인어와 인도네시아어도 지속적으로 추가할 예정이다. 국내 상륙 또는 해외 진출하는 OTT(온라인동영상서비스) 사업자의 구미를 당길 수 있는 솔루션인데, 이미 구체적인 사업화를 진행 중이다.
독자들의 PICK!
또 유튜브 영상에 들어가는 성우 영상을 다양하게 제공할 수 있다. 중국 최대 동영상 서비스 유쿠(youku)의 경우, 영상마다 다양한 지역언어를 구현하면 특정 지역 소비자에 대한 '타겟팅'으로 소비자들이 굉장한 매력을 느낄 수 있다. 아울러 엄마 아빠의 목소리를 학습해 아이에게 동화책을 읽어줄 수도 있다. 결국 저희 서비스는 B2B2C(기업 간 거래, 기업과 소비자의 거래를 결합한 형태다.)로 갈 것이다.

-왜 음성 AI에 관심을 갖게 됐나.
▶예전부터 음악에 관심이 많았다. 카이스트 중창 동아리에 있었는데, 밴드 '페퍼톤스'의 이장원씨가 동아리 선배다. 당시에도 AI 서비스는 가시화되는 게 있었는데, 음성 부문은 없더라. 그래서 회사를 차렸고, SM엔터테인먼트와 협업해 작곡 AI를 추진 중이다. 실제로 그 분야가 많이 어렵더라. 저작권 문제도 있고, 유명 작곡가들의 고유 자산인 '미디파일' 얻기가 어려워 빅데이터를 구성하기 어려웠다. 음성은 음악보다는 훨씬 '요소화'할 게 적고 시장도 넓다고 생각해 선택했다. 여러 기술이 발전되면 다시 음악에도 AI를 적용할 예정이다.
-음성 데이터 확보 과정에서 윤리적 문제는 없을까
▶ 특수하게 제작한 정해진 스크립트를 읽게 하고, 동일한 목소리만 합성시키는 것으로 해결할 수 있다. 인터넷에서 연예인 목소리를 따와서 학습시키는 것도 어렵다. 이미지의 경우 사진이 인터넷에 많이 떠돌아다니지만, 특정 문구를 말하는 음성을 확보해야 하는데 이를 인터넷으로구하기는 거의 불가능하기 때문이다.
-음성 합성 시장의 전망은 어떠한가.
▶ 단순한 음성 합성은 한계가 있지만, 사람처럼 콘텍스트를 파악해서 감정을 자유자재로 조절해가면서 이야기하게 하는 건, 상당히 난이도가 있는 기술이고 전망이 밝다. 우리는 '개인화 + 세계화' 기술이기 때문에, 어떤 콘텐츠를 목소리를 살린 채로 더빙하는 시장 등 기존 음성 합성 기술로는 접근하기 어려웠던 분야를 개척하고자 한다.
-기술 스타트업으로서 흔치 않은 일인데, 이미 수익을 내고 있다고?
▶지금은 B2B에 집중해 많은 분들이 회사를 알지는 못하지만, 휴멜로는 정말 잘 해내고 있다. 기술 스타트업이 단기간 흑자를 내는 건 상당히 어렵지만, 이미 올해부터 음성 합성으로 상당한 매출을 올리며 흑자 전환했다. 충분한 투자유치를 한 것은 덤이다. 물론 벌어들인 수익은 인재 유치와 설비 확충을 위해 아낌없이 재투자할 예정이다. 앞으로 'J커브'를 그릴 일만 남았다고 생각한다.