arXiv · 训练

语义生成式调优方法提升统一多模态模型性能

arXiv 上的一篇论文提出语义生成式调优方法,旨在解决统一多模态模型中视觉理解与生成任务目标分离导致的性能瓶颈。该方法通过语义级别的生成目标统一两种任务的训练信号,替代传统的稀疏文本与密集像素的分离优化策略,使模型在理解和生成任务上取得更好的协同效果。

域名
arxiv.org
评分
4 · 重要更新
发布
2026-05-18
语义生成式调优方法提升统一多模态模型性能

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。

原文摘要

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strateg…