arXiv · 大模型
DashAttention 提出可微分自适应稀疏分层注意力机制
来自 arXiv 的 DashAttention 针对当前 NSA、InfLLMv2 等分层注意力方法中 top-k 操作的硬离散性问题,提出了可微分的稀疏选择方案。该方法将粗粒度块筛选与细粒度 token 注意力结合,通过可微操作保持梯度连续性,在长序列上下文中减少了信息损失,是注意力机制计算效率方向的一次改进。
- 域名
arxiv.org- 评分
- 4 · 重要更新
- 发布
- 2026-05-18
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
原文摘要
Current hierarchical attention methods, such as NSA and InfLLMv2, select the top-k relevant key-value (KV) blocks based on coarse attention scores and subsequently apply fine-grained softmax attention on the selected tokens. However, the top-k operation assumes the number of relevant tokens for any…
