arXiv · 其他
WavFlow 直接在波形空间生成高保真音频
WavFlow 提出了一种直接在原始波形空间生成音频的方案,跳过了传统 latent space 压缩带来的额外复杂度和信息损失。该框架摆脱中间表征的依赖,在波形域端到端建模,有望在音乐、语音和音效等高保真场景中减少编码伪影并提升生成质量。这项研究为音频生成提供了新的技术路径。
- 域名
arxiv.org- 评分
- 5 · 重大发布
- 发布
- 2026-05-18
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
原文摘要
Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate repre…
