HuggingFace Papers · 训练
OSCAR 提出 2-bit KV Cache 离线旋转量化方法
OSCAR 提出了一种名为离线光谱协方差感知旋转(OSCAR)的 2-bit KV Cache 量化技术,通过旋转矩阵对齐激活与权重分布,在保持模型精度的同时显著压缩缓存占用。实验表明,该方法在多种大语言模型上达到近乎无损的量化效果,为长序列推理场景提供了高效的内存优化方案。
- 域名
huggingface.co- 评分
- 4 · 重要更新
- 收录
- 2026-05-19
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。