HuggingFace Papers · 大模型

CompactAttention 提出 Block-Union KV 选择加速分块预填充

CompactAttention 提出了一种名为 Block-Union KV Selection 的注意力机制优化方法,旨在加速大语言模型推理中的分块预填充阶段。该方法通过智能选择关键-值块,在保持模型质量的同时显著降低计算开销。论文在多个基准测试上的实验表明,该技术可将预填充延迟降低数倍,为长上下文场景下的高效推理提供了新思路。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-19
CompactAttention 提出 Block-Union KV 选择加速分块预填充

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。