터보퀀트(TurboQuant)는 인공지능(AI) 모델 효율성을 높여 메모리 사용량을 줄여주는 기술로 구글이 지난 25일 공개했습니다. 정확도를 유지하면서 모델 크기를 축소하는 압축 기법을 이용해 AI 메모리 사용량을 대폭 줄인 것이 특징이죠.
생성형 AI 대표 기술인 대규모언어모델(LLM)은 사용자와 나누는 대화량이 많아질수록 메모리 사용량도 늘어납니다. 처리 과정에서 이전 대화 내용을 기억하는 임시 기억장치인 KV 캐시(Key Value Cache)를 이용하죠. 대화를 길게 나누고 복잡한 정보일수록 KV 캐시 메모리 사용량이 늘어나면서 병목 현상이 나타나는데요.
터보퀀트는 성능 저하 없이 KV 캐시 메모리 사용량을 압축해 처리 속도를 빠르게 합니다. 구글 연구에 따르면 메모리 사용량은 최소 6분의 1 수준으로 줄고, 데이터 처리 속도는 엔비디아 그래픽처리장치(GPU) 'H100'보다 최대 8배 빠르죠.
터보퀀트가 같은 양의 메모리로 훨씬 더 많은 연산을 처리할 수 있게 한다는 점에서 메모리 반도체 수요가 급감할 것이란 우려가 나왔는데요. 이는 국내외 반도체 주가에도 영향을 미쳤습니다.
구글 발표 이후 미국 증권시장에서 마이크론은 전주 대비 시가총액이 700억달러(한화 약 106조원) 이상 줄었고, 주가도 약 15% 하락했죠. 국내 반도체 '투톱' 삼성전자와 SK하이닉스 주가도 급락했는데요.
하지만 증권가에서는 AI 모델 효율성이 높아지는 것이 중장기적으로 보면 총수요를 늘려 메모리 반도체 산업에 긍정적일 것이란 전망이 나옵니다. 이번 구글 발표는 알고리즘 공개에 가까우며 실제 상용화까지는 많은 시간이 걸릴 것이라는 분석도 있죠.