
생성형AI의 추론성능을 60% 이상 높이는 신경망처리장치(NPU) 핵심기술이 나왔다.
AI시스템이 처리해야 하는 요청의 수와 길이가 점차 증가하고 있으며, 궁극적으로 생성형AI 모델의 추론 과정에서 생성되고 사용되는 KV캐시(Key-Value Cache)가 커지는 결과를 낳는다.
KV 캐시는 매 요청, 매 토큰마다 생성 누적되기 때문에 대규모 시스템에서는 메모리 용량과 대역폭 사용량의 대부분을 차지하며 시스템 성능의 병목을 유발한다.
현재 메모리 기술로는 이런 용량과 대역폭 요구를 동시에 충족하기 어려워 대규모 서비스를 구축하기 위해 최신 GPU를 최대한 많이 사용해 클라우드를 구성하는 방식이 일반적이다.
생성형AI에서 실행형AI로
KAIST 전산학부 박종세 교수팀이 ㈜하이퍼엑셀과 협력해 챗GPT 같은 생성형AI 클라우드에 특화된 고성능·저전력 NPU핵심기술을 개발했다. ㈜하이퍼엑셀은 KAIST 전기및전자공학부 김주영 교수 창업기업이다.
이번 기술은 추론 과정에서 경량화를 통해 정확도 손실을 최소화하면서도 메모리 병목문제를 해결, 대규모 생성형AI 서비스 성능을 개선한 것이 특징이다.

기존 GPU 기반 AI 인프라는 높은 메모리 대역폭과 메모리 용량 요구를 충족하기 위해 다수의 GPU 디바이스가 필요하다.
반면 이 기술은 메모리 사용 대부분을 차지하는 KV캐시(Key-Value Cache)의 양자화로 적은 수의 NPU 디바이스만으로 동일 수준의 AI 인프라를 구성할 수 있어,생성형 AI클라우드 구축비용을 크게 절감할 수 있다.
KV캐시의 양자화는 생성형 AI 모델을 작동할 때 성능을 높이기 위해 사용하는 임시저장 공간에 데이터 크기를 줄이는 것으로, 32비트로 저장된 수를 4비트로 바꾸면 데이터 크기는 1/8로 줄어드는 원리다.
연구팀은 기존 NPU 아키텍처의 연산 로직을 변경하지 않으면서 메모리 인터페이스와 통합될 수 있도록 설계했다. 이 하드웨어 아키텍처 기술은 제안된 양자화 알고리즘을 구현했다.

아울러 제한된 메모리 대역폭 및 용량을 효율적으로 활용하기 위한 페이지 단위 메모리 관리기법과 양자화된 KV캐시에 최적화된 새로운 인코딩 기법 등을 개발했다.
페이지 단위 메모리 관리기법은 CPU처럼 메모리 주소를 가상화하여 NPU 내부에서 일관된 방식으로 접근할 수 있게 한다.
또 최신 GPU 대비 비용·전력 효율성이 우수한 NPU 기반 AI 클라우드를 구성할 경우 NPU의 고성능, 저전력 특성을 활용해 운영 비용 역시 크게 절감할 수 있다.
이 기술은 생성형AI에 특화된 고성능·저전력 인프라 구현 가능성을 입증한 것으로, AI클라우드 데이터센터뿐 아니라 능동적인 실행형AI ‘에이전틱AI’ 등 AI 대전환 환경에서 핵심 역할이 기대된다.
박 교수는 “이번 연구는 생성형AI 추론 경량화 알고리즘에서 그 해법을 찾았고 메모리 문제를 해결할 수 있는 NPU 핵심기술을 개발한 것”이라며 “추론 정확도를 유지하면서 메모리 요구량을 줄이는 경량화 기법과 이에 최적화된 하드웨어 설계를 결합해 최신 GPU 대비 평균 60% 이상 성능이 향상된 NPU를 구현했다”고 설명했다.
한편, 이번 연구는 KAIST 김민수 박사과정 학생과 ㈜하이퍼엑셀 홍성민 박사가 공동 제1저자로 지난달 일본 도쿄에서 열린 ‘2025 국제 컴퓨터구조 심포지엄(ISCA)’에서 발표했다.
(논문영 : Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization ※DOI: https://doi.org/10.1145/3695053.3731019)