구글이 대규모 언어 모델(LLM)의 메모리 사용량을 6분의 1로 줄이고 연산 속도는 8배 높이는 획기적인 기술을 공개해 AI 산업 전반에 큰 파장이 예상된다.

정보통신기획평가원(IITP)은 20일 발간한 'LLM 추론 메모리 병목 해소를 위한 극저 비트 KV 캐시 양자화 기술 동향' 보고서에서 구글 리서치가 개발한 '터보퀀트(TurboQuant)' 기술을 이같이 평가했다. 이 기술은 LLM의 핵심 메모리 병목으로 꼽히는 KV 캐시를 3비트 수준까지 압축하면서도 정확도 손실은 거의 없는 것이 특징이다.

LLM은 대화가 길어질수록 이전 내용을 기억하기 위한 KV 캐시가 선형적으로 증가해 막대한 메모리를 차지한다. 보고서에 따르면 70억 파라미터 모델이 책 한 권 분량의 문맥을 처리하는 데 수십 GB의 GPU 메모리가 필요하며, 이는 전체 메모리의 80% 이상을 차지하는 수준이다.

터보퀀트는 '폴라퀀트(PolarQuant)'와 'QJL'이라는 두 핵심 알고리즘으로 이 문제를 해결했다. IITP 보고서는 폴라퀀트가 기존 압축 기술의 숨은 오버헤드였던 '색인표(정규화 상수)'를 제거하고, QJL이 1비트만으로 압축 과정에서 발생하는 미세한 오차를 보정하는 방식이라고 설명했다. 특히 QJL 알고리즘 설계에는 KAIST가 주도적으로 참여했다.

이 기술을 적용하면 엔비디아 H100 GPU에서 어텐션 연산 속도가 최대 8배 향상되고, 메모리 사용량은 6배 이상 절감된다. 보고서에 따르면, 긴 문서 속에서 특정 정보를 찾아내는 '니들 인 어 헤이 스택' 과제에서 6배 압축 상태에서도 100%의 완벽한 검색 정확도를 달성했다.

터보퀀트의 등장은 반도체 시장에 즉각적인 충격을 줬다. 기술 공개 직후 SK하이닉스와 삼성전자 주가가 하락하는 등 고대역폭메모리(HBM) 수요 감소 우려가 불거졌다. 하지만 보고서는 이를 '제본스의 역설'에 비유하며 장기적으로는 메모리 수요가 오히려 급증할 수 있다고 분석했다. AI 서비스 효율이 높아지면 비용 장벽이 낮아져 사용량이 폭발적으로 늘고, 결국 '더 빠르고 효율적인 메모리'에 대한 수요가 커질 것이라는 전망이다.

이 외에도 클라우드 사업자는 동일한 장비로 6배 더 긴 문맥을 처리해 비용을 절감할 수 있다. 또한 스마트폰 등 기기 자체에서 고성능 AI를 구동하는 '온디바이스 AI' 시대가 현실화되고, 자금이 부족한 스타트업이나 연구실의 AI 접근성도 크게 향상될 것으로 보고서는 내다봤다.

보고서는 터보퀀트가 재학습이나 모델별 미세조정 없이 즉시 적용 가능한 범용 기술이라는 점에서 파급력이 크다고 평가했다. 다만 장기적으로는 KV 캐시 자체를 대체하는 새로운 AI 아키텍처 연구가 병행되어야 한다고 덧붙였다.