arXiv · 安全

SafeDiffusion-R1:在线奖励引导的扩散模型安全后训练方法

SafeDiffusion-R1 提出一种在线奖励引导的扩散模型安全后训练方法,无需昂贵的监督数据(如安全图像真值或正负图像对),即可在推理阶段引导模型避开不安全内容。该方法将安全约束转化为可微奖励信号,直接优化扩散模型的生成过程,在保持生成质量的同时显著降低有害内容输出率。相比离线微调方案,SafeDiffusion-R1 更易扩展,为扩散模型的安全部署提供了实用新思路。

域名
arxiv.org
评分
4 · 重要更新
发布
2026-05-18
SafeDiffusion-R1:在线奖励引导的扩散模型安全后训练方法

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。

原文摘要

Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinf…