AI 분야 최고 권위 학회 NeurIPS 상위 0.35% Oral 논문으로 선정
서울대학교 공과대학은 컴퓨터공학부 송현오 교수 연구팀이 장문 대화 및 문서 요약 등 긴 맥락(context)이 전제되는 작업에서 거대언어모델(LLM) 기반 챗봇의 ‘대화 메모리’를 지능적으로 압축하는 AI 기술 ‘KVzip’을 개발했다고 밝혔다.
‘대화 메모리’는 챗봇이 사용자와의 대화 중 문장, 질문, 응답 등의 맥락을 임시로 저장해 현재 혹은 이후의 응답 생성에 활용하는 정보를 말한다. KVzip을 활용하면 챗봇이 스스로 문맥을 복원하는 과정에서 복원에 필요하지 않은 정보를 제거함으로써 대화 메모리를 효율적으로 압축할 수 있다. 이 획기적 기술은 다양한 태스크를 수행하는 챗봇의 정확도는 유지하되 대화 메모리는 줄이고 답변 생성 시간은 단축할 수 있는 길을 열었다는 평가를 받고 있다.
‘KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction’ 제하의 이번 논문은 H5-index 371을 기록한 AI 분야의 세계 최고 권위 학회 ‘NeurIPS 2025’에 제출된 논문 2만1575편 중 0.35%에 해당하는 상위 77편에 선정, 구두 발표(Oral Presentation) 대상으로 채택됐다.
최신 LLM 챗봇은 수백에서 수천 페이지에 달하는 방대한 문맥을 바탕으로 대화, 코딩, 질의응답 등의 작업을 수행하고 있다. 그러나 대화가 길어질수록 ‘대화 메모리’가 누적돼 메모리 비용 증가 및 응답 지연의 문제가 발생한다.
이를 해결하기 위해 등장한 기술이 바로 ‘메모리 압축(memory compression)’이다. LLM 챗봇이 과거 대화나 문서 내용을 모두 보관하지 않고도 중요한 맥락을 기억할 수 있도록 핵심 정보만 남기고 나머지를 제거하거나 축약하는 기술이다. 하지만 기존의 압축 기법들은 대부분 챗봇이 현재 받는 질문에만 최적화됐기 때문에 새로운 후속 질문을 받을 때는 챗봇 성능이 크게 저하되는 한계가 있었다.
이 제약의 극복에 나선 연구진은 긴 맥락에 기반한 대화에서 LLM 챗봇의 ‘대화 메모리’를 효과적으로 줄이면서도 동일한 정확도를 유지하는 기술 ‘KVzip’을 고안했다. 이 기술은 문맥 복원에 필요한 정보만 남기는 방식으로 메모리 압축을 수행해 한 번의 압축만으로도 챗봇이 다양한 후속 질문에 대응할 수 있도록 설계됐다.
실제로 질의응답, 검색, 추론, 코드 이해 등 여러 과제에서 정확도 저하 없이 메모리를 3~4배 절감하고, 응답 시간은 약 2배 단축하는 성과를 달성했다. 아울러 Llama 3.1, Qwen 2.5, Gemma 3 등 주요 오픈 소스 LLM 모델에서 최대 약 17만 토큰(token) 규모의 초장문 맥락에까지 그 효용을 입증했다.
또한 서로 다른 유형의 후속 질문이 여러 차례 이어지는 상황에서도 챗봇의 응답 품질을 안정적으로 유지함으로써 기존 메모리 압축 방식의 일반화 한계를 극복했다. 아울러 해당 기술은 엔비디아(NVIDIA)의 KV 캐시 압축 라이브러리인 KVPress에 통합돼 손쉽게 활용 가능한 강점을 지닌다.
향후 KVzip은 기업 규모의 대규모 검색 증강 시스템(RAG)과 사용자 개인화 맥락을 활용하는 챗봇 등 기업 수준의 LLM 서비스 운영에 널리 활용될 것으로 전망된다. 동일한 정보를 3~4배 가볍게 보관하고 답변 생성 지연 시간을 약 2배 단축함으로써 같은 서버로 더 많은 동시 사용자와 더 긴 대화를 처리하면서 운영비를 크게 절감할 수 있기 때문이다.
또한 질문 유형이 바뀌어도 동일한 압축 메모리를 재사용할 수 있어 매 질문마다 재압축을 수행할 필요가 없으며, 후속 질문에 따른 성능 저하 우려도 없다. 이러한 특성은 메모리 제약이 큰 모바일 및 에지(Edge) 환경에서도 긴 맥락에 기반한 개인화 기능을 안정적으로 제공하는 데 유리해 KVzip의 다양한 상용화 가능성을 기대할 수 있다.
연구를 지도한 송현오 교수는 “KVzip은 긴 맥락을 필요로 하는 LLM 챗봇에서도 꼭 필요한 정보만 남겨 재사용이 가능한 압축 메모리를 구현했다는 점에서 의미가 크다”며 “향후 실제 서비스 및 온디바이스(on-device) 환경에서의 적용과 추가 최적화를 통해 긴 문맥에서도 일관된 품질과 빠른 속도를 보장하는 방향으로 연구를 이어가겠다”고 밝혔다.
AI포스트(AIPOST) 유진 기자 aipostkorea@naver.com

