92년생 10학번 소프트웨어 연구자 한인수 KAIST 교수
AI 메모리 압축 알고리즘 '터보퀀트' 주역
"시장 반응 예상 못해…알고리즘 중요성 알려져 의미"

"어떻게든 메모리를 줄이는 데 집중했을 뿐입니다. 반도체 시장이 반응할 줄 예상 못했습니다. 정말 놀랐습니다."
구글 '터보퀀트'(TurboQuant) 개발의 핵심 인물인 한인수 KAIST(카이스트) 전기및전자공학부 교수는 30일 열린 온라인 기자간담회에서 이같이 밝혔다. 한 교수는 1992년생으로 올해 33세다. 2010년 카이스트에 입학해 소프트웨어 공부를 시작했다.
한 교수는 지난해 7월부터 구글 리서치에서 방문 연구원을 겸임하며 터보퀀트를 공동 개발했다. 2024년 9월 카이스트 부임과 동시에 연구를 시작한 양자화 기술 '폴라퀀트'(PolarQuant)가 터보퀀트의 핵심 기반이 됐다.
터보퀀트는 구글이 최근 발표한 AI 메모리 사용량 압축 알고리즘으로, AI 추론에 필요한 데이터를 6분의 1 수준으로 압축해 메모리 사용량을 크게 줄일 것으로 예상된다. 특히 단순 알고리즘 개선만으로 효율화에 성공했다는 점에서 산업계와 학계의 주목을 받는다. 반도체 메모리의 물리적 구조를 바꾸거나 별도의 연산 회로를 설계하는 것이 하드웨어적 접근이라면, 터보퀀트는 AI 모델 내부의 알고리즘을 바꿔 메모리를 절약하는 소프트웨어적 접근이다.
한 교수는 "(전문가 수준에서) 이번 논문을 제대로 이해하고 컴퓨터에 적용할 수 있는 사람이라면 누구나 터보퀀트 알고리즘을 자신의 AI 모델에서 실증할 수 있다"고 했다. 또 "논문 공개 후 전 세계 곳곳에서 터보퀀트 알고리즘을 적용했다는 사례가 계속 보고되고 있다"며 빠른 상용화 가능성을 전망했다.

그는 터보퀀트를 "먼저 강하게 압축하고, 남는 오차는 정교하게 보정하는 기술"이라고 정의했다. 터보퀀트의 핵심 원리인 '폴라퀀트'는 "일종의 반올림 계산법"이라고 했다. AI 모델은 수백억개 파라미터로 구성되는데, 각각의 파라미터는 대개 16비트짜리 소수점 형태로 복잡하다. 이처럼 복잡하고 긴 소수점 형태를 단순한 정수 형태로 바꾸는 것을 '양자화'라고 한다. 16비트 소수점으로 구성된 파라미터를 4비트로 압축하면 메모리 크기도 4분의 1로 축소된다. 압축 과정에서 생기는 편향성(오류)은 2단계 보정을 통해 제거한다.
한 교수는 "반도체 시장을 염두에 두고 연구를 시작한 게 아니었다"며 "시장 반응에 많이 놀랐다"고 했다. 그는 "(연구자로서) 오로지 어떻게 하면 메모리 사용량을 줄이면서 성능을 유지하는 알고리즘을 만들 수 있을지 집중했을 뿐"이라며 "앞으로는 AI 모델의 추론 과정을 효율화할 방법을 연구할 것"이라고 했다.
그는 "이번 기회를 통해 반도체 시장에서 하드웨어 뿐만 아니라 소프트웨어도 중요하다는 사실이 각인된 것 같아 의미가 있다"면서 "소프트웨어와 하드웨어가 함께 최적화돼야 AI 효율화를 달성할 수 있다"고 강조했다.