arXiv · 安全

SafeDiffusion-R1：在线奖励引导的扩散模型安全后训练方法

SafeDiffusion-R1 提出一种在线奖励引导的扩散模型安全后训练方法，无需昂贵的监督数据（如安全图像真值或正负图像对），即可在推理阶段引导模型避开不安全内容。该方法将安全约束转化为可微奖励信号，直接优化扩散模型的生成过程，在保持生成质量的同时显著降低有害内容输出率。相比离线微调方案，SafeDiffusion-R1 更易扩展，为扩散模型的安全部署提供了实用新思路。

域名: arxiv.org
评分: 4 · 重要更新
发布: 2026-05-18

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

原文摘要

Diffusion models have been widely studied for removing unsafe content learned during pre-training. Existing methods require expensive supervised data, either unsafe-text paired with safe-image groundtruth or negative/positive image pairs, making them impractical to scale. Furthermore, offline reinf…

Back to Latest