arXiv · 大模型

DashAttention 提出可微分自适应稀疏分层注意力机制

来自 arXiv 的 DashAttention 针对当前 NSA、InfLLMv2 等分层注意力方法中 top-k 操作的硬离散性问题，提出了可微分的稀疏选择方案。该方法将粗粒度块筛选与细粒度 token 注意力结合，通过可微操作保持梯度连续性，在长序列上下文中减少了信息损失，是注意力机制计算效率方向的一次改进。

域名: arxiv.org
评分: 4 · 重要更新
发布: 2026-05-18

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

原文摘要

Current hierarchical attention methods, such as NSA and InfLLMv2, select the top-k relevant key-value (KV) blocks based on coarse attention scores and subsequently apply fine-grained softmax attention on the selected tokens. However, the top-k operation assumes the number of relevant tokens for any…

Back to Latest