HuggingFace Papers · 训练

OSCAR 提出 2-bit KV Cache 离线旋转量化方法

OSCAR 提出了一种名为离线光谱协方差感知旋转(OSCAR)的 2-bit KV Cache 量化技术,通过旋转矩阵对齐激活与权重分布,在保持模型精度的同时显著压缩缓存占用。实验表明,该方法在多种大语言模型上达到近乎无损的量化效果,为长序列推理场景提供了高效的内存优化方案。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-19
OSCAR 提出 2-bit KV Cache 离线旋转量化方法

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。