research & papers
学术
arXiv 预印本、Nature 等期刊以及研究机构博客(research.google 等)的 AI 相关原始研究。
91 items · 按发布时间倒序
91 items
2026 年 5 月87 items
- HuggingFace Papers大模型
AR-VLA 提出适用于视觉-语言-行动模型的自回归行动专家
AR-VLA 将行动预测建模为自回归生成任务,用于视觉-语言-行动模型。该方法使模型在复杂环境中做出更连贯精准的决策。实验显示,AR-VLA 在多项机器人操控和导航 benchmark 上获得明显提升,为具身智能体提供了更稳定的行动推理方式。
- HuggingFace PapersTTS
WavFlow 提出波形空间音频生成方法
WavFlow 是一种直接在波形空间进行音频生成的方法,绕过了传统声学特征提取与频谱建模流程。该方案将生成过程从梅尔频谱等中间表示迁移至原始音频信号域,旨在保留更完整的声学细节与时间分辨率。相关工作发表于 arXiv,为语音合成与通用音频生成提供了新的技术路线。
- HuggingFace Papers训练
对称性兼容原则提出优化器设计新方法
一篇新论文提出对称性兼容原则,为优化器设计提供理论指导。该方法可应用于嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器等模块,通过保持参数空间的对称性来提升训练效率与模型性能。研究为理解神经网络优化机制提供了新视角。
- HuggingFace PapersAgent
DexHoldem 将德扑策略推理与灵巧手操控结合
DexHoldem 提出了一套结合灵巧操控与策略推理的具身系统,让机械手在德州扑克场景中完成抓牌、博弈等物理交互。该工作将牌局策略学习与灵巧操控统一在同一框架下,使 agent 不仅知道打什么牌,还能自己动手。在仿真环境中,DexHoldem 在多轮博弈中的胜率高于纯策略模型,展示了具身智能在需要复杂操作与博弈推理的任务上的潜质。
- HuggingFace Papers训练
OSCAR 提出 2-bit KV Cache 离线旋转量化方法
OSCAR 提出了一种名为离线光谱协方差感知旋转(OSCAR)的 2-bit KV Cache 量化技术,通过旋转矩阵对齐激活与权重分布,在保持模型精度的同时显著压缩缓存占用。实验表明,该方法在多种大语言模型上达到近乎无损的量化效果,为长序列推理场景提供了高效的内存优化方案。
- HuggingFace Papers视频生成模型
VideoSeeker 通过原生 agent 工具调用提升视频实例级理解能力
VideoSeeker 提出一种新框架,将视频理解任务与原生 agent 工具调用深度结合。它通过激励模型主动调用外部工具(如目标检测、跟踪、OCR 等),在推理过程中获取实例级细粒度信息,从而显著提升对视频中物体、动作和时序关系的理解准确率。该方法在多个视频 QA 数据集上取得领先成绩,为视频模型与 agent 系统的融合提供了新思路。
- HuggingFace Papers评测
多模态 LLM 在临床评分中表现出集中趋势偏差
一篇新论文系统性地审计了多模态大语言模型作为临床评分器时的表现,发现它们普遍存在集中趋势偏差——倾向于给出中间分数而非极端值。研究通过设计临床序数评分任务,揭示了 GPT-4V 等模型在医学影像评估中的系统性偏差,为将 LLM 用于自动化临床评分提供了重要的校准依据。
- HuggingFace Papers评测
SCICONVBENCH 发布多轮澄清对话评测基准
SCICONVBENCH 是为评估大模型在计算科学场景下进行多轮澄清对话能力而设计的评测基准。它要求模型在面对模糊的科学计算任务描述时,主动与用户交互、提问并逐步明确需求,直至形成可执行的正式任务规约。该基准填补了现有评测对任务澄清阶段关注不足的空白,聚焦于模型能否像人一样在初始需求不清晰时引导对话走向精确的表述。
- HuggingFace Papers其他
TopoPrimer 为时序预测模型补充拓扑上下文
TopoPrimer 是一项提出为时序预测模型提供拓扑上下文的研究。该方法通过挖掘数据中的拓扑结构信息,帮助模型捕捉传统方法忽略的空间与关系特征,在多个基准上取得显著提升。论文已在 Hugging Face 发布。
- HuggingFace Papers评测
AgentKernelArena 发布 GPU 内核优化 agent 泛化能力评测基准
AgentKernelArena 是一个面向 GPU 内核优化 agent 的评测基准,重点考察 agent 在未见过的 kernel 和 GPU 架构上的泛化能力。该基准包含 80 个来自 cuBLAS 和 FlashAttention 的 kernel 任务,覆盖多种 GPU 架构,并设计了跨 kernel 和跨架构的评估协议。初步评测显示,现有 agent 在泛化场景下性能显著下降,揭示出当前方法在迁移能力上的不足。
- HuggingFace Papers大模型
GRASP:在多人非语言交互中学习社会推理的定位
GRASP 提出一种新方法,让 AI 系统在多人的非语言交互中学习社会推理的定位。该研究利用视觉和社交信号,使模型能够理解人与人之间的微妙互动,如目光、姿态和空间关系,从而更准确地推断社交意图。这项工作有助于构建更具社交感知能力的 AI,在机器人、虚拟助手和社交技能培训等场景有应用潜力。论文已在 HuggingFace 发布。
- HuggingFace Papers评测
CHI-Bench 发布:评估 AI Agent 自动化医疗工作流的基准
CHI-Bench 是一个面向 AI agent 的新型基准测试,专门评估其在自动化端到端、长周期且政策密集的医疗工作流方面的能力。该基准覆盖临床决策、保险审批、病历管理等复杂流程,要求 agent 理解多步规则并做出合规判断。相比现有基准多聚焦单一任务,CHI-Bench 更贴近真实医疗机构中需要跨系统协作、长时间跟踪的实际场景,为医疗领域 agent 的落地提供了一个更有意义的评测标准。
- HuggingFace Papers评测
TOBench 发布面向真实工具使用的全模态 Agent 评测基准
TOBench 是一个面向真实世界工具使用的全模态评测基准,专门评估 agent 在多模态环境下调用 API、操作界面和执行复杂任务的能力。该基准覆盖图像、文本、音频等多种输入形式,并设计了贴近实际应用场景的任务集,旨在弥补现有评测在工具使用深度和模态多样性上的不足。研究者可通过该基准更全面地衡量 agent 在真实交互中的表现。
- HuggingFace PapersAgent
研究提出交互式 AI Agent 认知年龄对齐评估方法
一篇来自 HuggingFace 论文的研究提出了一种评估交互式 AI Agent 认知年龄对齐程度的方法。该方法旨在衡量 AI 代理在对话或任务执行中表现出的认知水平是否与用户期望的年龄角色相符,例如儿童陪护场景中代理人应呈现相应认知成熟度。这项工作为构建更自然的人机交互系统提供了量化评估框架。
- HuggingFace PapersAgent
MementoGUI 发布面向长周期 GUI Agent 的多模态记忆控制方法
MementoGUI 提出了一种多模态记忆控制机制,帮助 GUI agent 在复杂的多步交互任务中维持长期上下文。该方法通过学习 agent 对过往界面和操作的记忆权重来自动管理历史信息,避免长周期操作中常见的遗忘或记忆混乱问题。研究团队在多个数据集上验证了该方法在任务完成率和操作效率上的提升。
- HuggingFace Papers训练
研究提出 E-PMQ 后合并量化方法,引入合并权重锚定
E-PMQ 是一种专家引导的后合并量化方法,核心创新在于合并权重锚定机制。它通过对合并后的模型权重进行量化压缩,同时保留专家知识的结构信息,在降低模型存储与推理成本的同时维持性能。该方法为模型压缩与多任务合并场景提供了一条兼顾效率与精度的技术路径。
- HuggingFace Papers大模型
NGM 提出即插即用的免训练记忆模块
研究者提出一种即插即用的免训练记忆模块 NGM,可插入已有大语言模型,在不重新训练的条件下增强长文本记忆能力。该方法通过外部存储与检索机制,使 LLM 在对话或推理中保持更一致的上下文引用。论文已在 HuggingFace 发布。
- HuggingFace Papers大模型
KVPO 提出 ODE-Native GRPO 方法实现自回归视频对齐
KVPO 提出了一种将 ODE-Native GRPO 与 KV 语义探索相结合的新训练方法,用于自回归视频对齐。该方法通过挖掘键值缓存中的语义信息,引导模型在视频生成与推理过程中保持全局一致性与时间连贯性,在视频理解与生成对齐任务上展现出显著改进。
- HuggingFace Papers大模型
StableVLA 提出无需额外数据的视觉-语言-动作模型
StableVLA 是一篇新论文,提出了一种无需额外数据就能训练出鲁棒视觉-语言-动作模型的方法。传统方法依赖大量标注数据,而 StableVLA 通过改进训练策略和模型架构,在多个机器人操控基准上达到与需要额外数据的方法相当甚至更好的性能。这项工作有望降低机器人学习和多模态模型的门槛。
- HuggingFace PapersAgent
SkillsVote 提出 agent skill 从收集推荐到演化的全生命周期治理框架
SkillsVote 为 agent skill 提供了一套覆盖收集、推荐直至演化的完整治理方案,让开发者能在安全可控的前提下完成技能的管理与迭代。该框架包含技能筛选与投票机制,可以根据实际使用反馈动态调整推荐的 skill 集合,并支持技能自身的持续演进。这一设计意在解决当前 agent 生态中 skill 来源混杂、质量参差、难以维护的痛点,为构建更有序的 agent 能力商店提供了系统性的技术支撑。
- HuggingFace Papers3D
Code-as-Room 提出从俯视图生成 3D 房间的智能体代码合成方法
Code-as-Room 是一项将俯视图像转化为可交互 3D 室内场景的新研究。它利用智能体代码合成,让大语言模型根据用户提供的房间布局图自动生成程序化 3D 资产与空间结构,无需手工建模或大量训练数据。该方法在几何合理性与风格一致性上表现出色,为室内设计、游戏场景搭建和机器人仿真提供了更轻量的生成路径。
- HuggingFace Papers编程工具
OProver 发布统一 agent 框架用于形式化定理证明工具
OProver 将大语言模型与自动化证明器结合,通过多轮交互和策略搜索完成数学定理的自动证明。该框架在多个 benchmark 上取得了显著提升,为 AI 辅助数学推理提供了更系统化的工程方案。
- HuggingFace Papers大模型
LiteFrame 提出高效视觉编码器,推动视频大模型帧扩展
LiteFrame 针对视频大模型计算成本随帧数增长过快的问题,设计了一种轻量视觉编码器。它通过空间-时间分解与渐进式特征融合,在保持高保真度前提下将可处理的帧数提升数倍。实验表明,采用 LiteFrame 后视频问答与长视频理解的准确率显著提高,而推理延迟仅小幅增加。这项工作为多帧视频理解提供了一条实用路径。
- HuggingFace Papers大模型
CompactAttention 提出 Block-Union KV 选择加速分块预填充
CompactAttention 提出了一种名为 Block-Union KV Selection 的注意力机制优化方法,旨在加速大语言模型推理中的分块预填充阶段。该方法通过智能选择关键-值块,在保持模型质量的同时显著降低计算开销。论文在多个基准测试上的实验表明,该技术可将预填充延迟降低数倍,为长上下文场景下的高效推理提供了新思路。
- HuggingFace PapersAgent
多智能体测试驱动开发框架实现从需求到全栈应用生成
该研究提出一种多智能体测试驱动开发框架,将用户需求直接转化为可部署的全栈 Web 应用。系统通过 agent 间协作自动生成测试用例与代码,并在迭代中验证功能正确性,显著提升了从需求到上线的自动化程度。
- HuggingFace Papers大模型
研究者提出测量开源大语言模型最大激活值的方法
Hugging Face 上的一篇新论文探讨了如何测量开源大语言模型内部神经元的激活峰值。通过分析最大激活值,研究者试图理解模型对特定输入的响应强度,为解释模型行为和潜在的安全风险提供依据。这项工作有助于社区更深入地评估开放模型的内部工作机制。
- HuggingFace PapersAgent
AtlasVA 提出自进化视觉技能记忆机制用于无教师 VLM Agent
AtlasVA 提出一种自进化的视觉技能记忆机制,让视觉语言模型 agent 无需教师信号即可持续积累和调用视觉技能。该方法将视觉经验编码为可复用的技能模块,agent 在任务中自主识别关键视觉模式并更新记忆库,从而提升泛化能力。实验表明,AtlasVA 在多个视觉推理基准上显著优于固定提示或静态记忆的基线方法,为构建更自主的视觉 agent 提供了新思路。
- HuggingFace Papers评测
FINESSE-Bench 发布金融领域 LLM 分层评测基准
FINESSE-Bench 是一个面向大语言模型金融能力的分层评测基准,涵盖金融知识、技术分析、财报解读等多个维度。该基准通过分层设计,能更精细地评估模型在评估模型在金融领域的专业水平,为金融 NLP 研究提供了标准化的测试框架。
- HuggingFace Papers安全
SafeDiffusion-R1 提出在线奖励引导的扩散模型安全训练方法
SafeDiffusion-R1 是一种专为扩散模型设计的在线奖励引导训练方法,旨在解决图像生成过程中的安全对齐问题。该方法通过在后训练阶段引入奖励信号,直接引导模型避免生成有害或不适当内容,而不牺牲图像质量和多样性。这一框架为扩散模型的安全部署提供了一种有效的技术路线。
- HuggingFace Papers世界模型
Incantation 将自然语言作为多实体视频世界模型的动作接口
Incantation 提出了一种将自然语言指令直接映射为多实体视频世界模型动作接口的方法,让用户通过描述性语言即可驱动虚拟环境中多个对象的交互与行为。该方法避开了传统动作空间定义与强化学习策略调优的复杂流程,有望降低视频世界模型在仿真、游戏和机器人训练等场景中的使用门槛。
- HuggingFace Papers大模型
MIT 等提出 Actionable World Representation 框架
MIT 等机构在论文中提出 Actionable World Representation 概念,试图让大模型从静态知识表述转向可操作的动态世界建模。该方法将环境状态编码为可供推理与决策的结构化表示,使语言模型能够直接基于世界模型执行规划与行动。这项工作为连接语言理解与物理世界交互提供了新的建模路径。
- HuggingFace PapersAgent
Code as Agent Harness 论文提出将代码用作智能体框架
HuggingFace 论文《Code as Agent Harness》尝试将代码本身作为智能体的运行框架。传统 agent 系统依赖多层配置与中间件,该研究主张直接让模型以编写和执行代码的方式完成多步任务。这一做法有望简化架构、减少对外部编排工具的依赖,同时让执行过程更易追踪。论文已可在 HuggingFace 查阅。
- HuggingFace Papers训练
SNLP 提出结构化牛顿校正实现层并行推理
SNLP 提出一种基于结构化牛顿校正的层并行推理方法,通过将深度网络视为非线性方程组求解过程,在保持模型精度的同时显著提升推理速度。该方法在多个主流 Transformer 架构上验证有效,包括 GPT-2 和 Llama 等模型上验证了有效性,为加速大模型推理提供了新的理论视角和工程路径。
- HuggingFace Papers评测
A2RBench 提出可形式验证的抽象推理基准自动生成框架
研究人员提出 A2RBench 自动生成形式化可验证的抽象推理基准,解决了传统基准测试中人工标注成本高、规模受限以及验证不严格的问题。该框架通过自动构建推理题目并搭配形式化验证机制,为评估 LLM 的抽象推理能力提供更可靠的手段。A2RBench 有望推动推理评测向更高自动化与可验证方向演进。
- HuggingFace Papers大模型
探测轨迹揭示大模型内部推理动态
研究者提出通过分析大模型中间层对特定概念的探测轨迹,来监控其“内部独白”。该方法能揭示模型在推理过程中的动态特征,展示探测轨迹与人类推理步骤的对应关系,为理解大模型如何逐步推导答案提供了新视角,有助于提升模型可解释性。
- HuggingFace Papers训练
MixSD 提出混合上下文自蒸馏方法用于知识注入
MixSD 提出了一种混合上下文自蒸馏方法,目标是将外部知识更高效地注入语言模型。该方法在同一模型中构建不同上下文粒度的蒸馏路径,让模型在保持原有能力的同时吸收结构化知识。研究者在多个知识密集型任务上进行了验证,结果显示该方法在提升知识注入效果和减少遗忘之间取得了更好平衡。
- HuggingFace Papers其他
AI for Auto-Research 发布路线图与用户指南
一篇关于 AI 辅助自动研究的论文发布了详细路线图与用户指南。该论文系统梳理了自动科研的发展方向,涵盖文献分析、实验设计、结果解释等环节的 AI 应用方法,为研究者提供了从入门到进阶的实践参考。
- HuggingFace Papers视频生成模型
NVIDIA 发布 LongLive-2.0 长视频生成并行基础设施
NVIDIA 推出 LongLive-2.0,一个基于 NVFP4 的并行基础设施,专为长视频生成任务设计。该项目通过优化浮点精度和分布式推理来扩展视频模型的生成时长,试图在保持画面质量的同时突破当前视频模型在时间维度上的长度限制。技术论文已在 Hugging Face 发布。
- HuggingFace Papers大模型
Lance 提出统一多模态模型,通过多任务协同实现
Lance 是一种统一多模态模型,通过多任务协同训练,在视觉、语言等多种模态上实现联合建模。该方法旨在提升模型对跨模态信息的理解与生成能力,为多模态 AI 研究提供了新的思路。
- HuggingFace Papers大模型
研究提出几何引导的扩散模型与语言模型融合方法
一篇新论文探讨了扩散模型与语言模型融合的最佳切入点。研究者提出一种几何引导的隐状态替换方法,通过分析语言模型在推理过程中将部分隐状态替换为扩散模型生成的表示,从而在保持文本连贯性的同时提升生成质量。该方法在多个基准上取得改进,为混合架构提供了新思路。
- HuggingFace Papers评测
研究提出语义保留早期退出机制加速推理模型
在这篇研究论文中,作者提出一种面向推理模型的语义保留早期退出机制。该方法在推理过程中检测推理链的语义收敛点,一旦发现模型已形成稳定推理结论,便提前终止生成,从而在保持输出语义不变的前提下大幅减少计算开销。实验表明,该策略可在多种推理任务中显著降低 token 消耗,同时不损害答案质量。
- HuggingFace PapersAgent
研究揭示 LLM 工具使用中存在“知道—做”鸿沟
这项研究提出模型自适应工具必要性判断方法,系统性地揭示了 LLM 在工具调用场景中普遍存在的“知道—做”鸿沟——模型知道应该使用工具,却在实际执行时选择跳过或错误调用。作者通过动态评估机制量化了模型能力与行为之间的偏差,为改进 Agent 工具调用策略提供了新视角。
- HuggingFace Papers大模型
EndPrompt 提出终端锚定长上下文扩展方法
EndPrompt 提出终端锚定法,通过在序列首尾设置锚点,使大模型能更高效处理超长文本。该方法无需改动模型架构,即可在长文档理解与推理任务上取得性能提升,为扩展上下文长度提供了一种简洁的技术路径。
- HuggingFace Papers其他
研究提出对比对搜索实现目标神经元调制
这篇论文提出了一种名为对比对搜索的方法,通过寻找能最大化激活差异的输入对,实现对特定神经元的定向调制。该方法不依赖模型内部结构,仅需输入输出对即可定位并调整神经元行为,为模型可解释性和细粒度控制提供了新思路。实验表明,该方法能有效改变模型在特定任务上的响应模式,同时保持整体性能稳定。
- HuggingFace Papers训练
后训练 MoE 通过自蒸馏跳过半数专家
Hugging Face 论文提出一种针对 MoE 模型的后训练方法,借助自蒸馏让模型在推理时跳过半数专家而不损失精度。实验显示该方法在多项基准上维持甚至提升性能,为部署大规模混合专家模型提供了更高效的推理路径。
- HuggingFace PapersAgent
Agent Bazaar 论文提出多智能体市场中的经济对齐
Agent Bazaar 论文提出一种新框架,在多智能体市场中引入经济机制,让自主 agent 在协作与竞争中实现资源分配和利益平衡,避免垄断或冲突。该方法能提升多 agent 系统的整体效率与稳定性,为构建大规模智能体市场提供理论支撑。
- HuggingFace Papers其他
几何相变理论揭示海马体记忆容量极限机制
一篇发表于 HuggingFace 研究论文提出,海马体通过几何相变实现极端记忆容量。该理论从物理相变角度重新解释了大脑如何在高密度存储下保持记忆稳定性,为神经形态计算和类脑存储架构提供了新的理论支撑。
- arXiv评测
新研究评估 3D 基础模型在多视角一致性中的幻觉问题
一项来自 arXiv 的新研究指出,当前多视角 3D 一致性评测方法存在一个根本假设漏洞:它默认所有输入图像都是同一静态场景的观测。但在新视角合成与稀疏视图重建中,模型生成的图像可能包含伪影、重复视角或噪声,这些异常仍可能获得高分。该工作系统性地分析了 3D 基础模型在多视角评测下的幻觉现象,为更可靠的评测标准提供了新思路。
- arXiv大模型
DashAttention 提出可微分自适应稀疏分层注意力机制
来自 arXiv 的 DashAttention 针对当前 NSA、InfLLMv2 等分层注意力方法中 top-k 操作的硬离散性问题,提出了可微分的稀疏选择方案。该方法将粗粒度块筛选与细粒度 token 注意力结合,通过可微操作保持梯度连续性,在长序列上下文中减少了信息损失,是注意力机制计算效率方向的一次改进。
- arXiv训练
面向运行时变化的流水线并行训练就绪驱动运行时
这篇论文提出一种就绪驱动的运行时系统,用于应对流水线并行训练中计算与通信的动态变化。传统方法依赖静态或预生成调度,难以适应运行时波动。新系统通过实时感知各阶段就绪状态,动态调整执行顺序,减少空闲等待,提升训练吞吐。实验表明,在异构集群和负载波动场景下,该方法能有效缓解流水线气泡,为大规模模型训练提供更鲁棒的调度方案。
- arXiv其他
WavFlow 直接在波形空间生成高保真音频
WavFlow 提出了一种直接在原始波形空间生成音频的方案,跳过了传统 latent space 压缩带来的额外复杂度和信息损失。该框架摆脱中间表征的依赖,在波形域端到端建模,有望在音乐、语音和音效等高保真场景中减少编码伪影并提升生成质量。这项研究为音频生成提供了新的技术路径。
- arXiv视频生成模型
Aurora 提出基于工具使用 Agent 的统一视频编辑框架
Aurora 通过一个工具使用 agent,将替换、移除、风格迁移和参考驱动插入等视频编辑任务统一到单一扩散 Transformer 模型中。这种方法用同一套权重处理多种编辑需求,无需为每种操作单独设计模型,在保持编辑质量的同时简化了工作流程。
- arXivAgent
arXiv 论文提出 Code as Agent Harness 框架
arXiv 一篇新论文提出 Code as Agent Harness,将代码定位为 agent 系统的操作接口而非仅最终产出。该框架让大语言模型通过编写和执行代码来驱动外部工具完成复杂任务,在多个基准上取得较好效果,为 agent 系统的实现提供了一种新的技术路径。
- arXiv评测
ESI-Bench 发布具身空间智能评测基准
ESI-Bench 是一个面向具身空间智能的评测基准,核心关注感知-行动闭环:智能体通过动作获取观测,并推理所需的观察,并理解观察随动作变化的规律。不同于传统被动感知任务,该基准要求模型主动探索场景中的遮挡结构、物体动态与空间关系与容器属性等。它填补了现有评测在闭环空间推理上的空白,为具身 agent 的空间理解能力提供了更贴近真实交互的衡量标准。
- arXiv训练
SURGE 提出免训练无偏粒子滤波用于扩散模型推理
SURGE 提出一种免训练的粒子滤波方法,用于扩散模型在推理阶段添加引导。现有方法通常需反复计算分数或梯度,引入偏差并增加计算开销。SURGE 通过近似自由的粒子重采样,在降低计算量的同时提升任务特定样本质量,为扩散代理的推理时控制提供了新方向。
- arXiv世界模型
可操作世界表示研究
受大语言模型涌现行为启发,研究者开始在世界模型领域寻求类似的通用物理世界建模能力。这篇论文提出可操作世界表示(Actionable World Representation),旨在让模型不仅感知环境,还能基于物理规律做出有效决策。该工作有望推动机器人、自动驾驶等具身智能场景中更真实、可交互的虚拟环境构建。
- arXiv大模型
Vision-OPD 提出多模态大模型细粒度视觉理解的自蒸馏方法
多模态大模型在细粒度视觉理解上仍存在短板,答案往往依赖图像中微小但关键的证据。Vision-OPD 提出一种基于策略的自蒸馏方法,让模型在训练中主动关注局部细节,缩小区域到全局的感知差距。该方法不依赖额外标注,即可提升 MLLM 对细节问题的回答准确率。
- arXiv视频生成模型
LongLive-2.0 发布 NVFP4 长视频生成并行基础设施
LongLive-2.0 提出一套基于 NVFP4 的并行基础设施,覆盖长视频生成训练和推理流程。针对训练阶段的内存与速度瓶颈,团队引入序列并行自回归训练方法 Balanced SP,在保持模型质量的同时提升长视频生成效率。该工作在长视频任务的吞吐量和延迟上取得改善,为更长时间、更高分辨率的视频生成提供了可扩展的系统方案。
- arXiv安全
研究者审计语言模型的临床伦理多元性
医学伦理天然存在多元性,自主、行善、不伤害与公正原则常常冲突,临床医生需结合患者价值观做出权衡。这项研究系统审计了语言模型在临床伦理判断中的多样性表现,检验AI医生是否能够像人类医生一样,在不同伦理困境中保持合理的价值观多元性,而非强加单一立场。
- arXiv图像模型
Spectral Progressive Diffusion 提出频谱渐进式扩散方法
Spectral Progressive Diffusion 提出一种基于频谱视角的扩散过程加速方案。该方法观察到扩散模型在频率域中具有自回归生成特性:低频结构在去噪早期阶段成型,而高频细节则在后期逐步涌现。利用这一特性,该工作设计了频谱渐进式采样策略,在不牺牲生成质量的前提下显著减少推理步骤,适用于图像和视频生成场景。
- arXiv图像模型
PIXLRelight 提出基于内在条件控制的单图重光照方法
PIXLRelight 提出一种前馈式单图像重光照方法,用内在条件控制实现物理可调的照明效果。它避免逆渲染与正向渲染串联时的误差累积,也无需逐图优化,在光照控制灵活性和效率上都有提升。论文已在 arXiv 公开。
- arXiv评测
EgoExoMem:跨视角记忆推理基准发布
为弥补单一第一人称视角在空间-时间推理上的局限,研究团队推出 EgoExoMem,这是首个针对同步第一人称与第三人称视频进行跨视角记忆推理的基准。该基准模拟人类同时从亲身经历和旁观者视角回溯事件的能力,为具身智能体的时空记忆理解提供了新的评估维度,相关论文已发布于 arXiv。
- arXiv视频生成模型
训练-free 身份感知记忆方法推进长视频生成一致性
这篇论文提出了一种无需训练的身份感知记忆机制,用于解决自回归视频生成中的长期不一致和记忆退化问题。现有方法依赖预定义压缩或粗略检索,而该方法通过身份感知保持角色和场景的连贯性,在长视频叙事生成中取得更好效果。
- arXiv评测
研究揭示 LLM 事实召回受模型大小和主题频率影响
一项对 38 个模型、超过 8900 条学术引文的评估发现,大语言模型的事实召回质量与模型参数量和训练数据中主题出现频率呈可预测的规模法则关系。研究团队使用自动引用验证系统进行评测,结果说明模型规模和数据组成共同决定了事实性知识的复现能力,为理解 LLM 的幻觉机制提供了量化视角。
- arXivAgent
Robo-Cortex 提出双粒度认知记忆与自主知识归纳的自进化具身智能体
Robo-Cortex 提出一种自进化具身智能体,通过双粒度认知记忆和自主知识归纳机制,解决未知环境中的导航与交互难题。该方法能从历史经验中提取通用策略,避免传统方法常见的“经验性遗忘”问题,为智能体在复杂新环境中的泛化提供新思路。
- arXiv其他
DexHoldem 让灵巧手系统学会玩德州扑克
DexHoldem 是一个将德州扑克作为测试环境的灵巧手具身系统。任务要求机械手观察变化的桌面布局,根据局势选择合适的操作,完成拿牌、下注等复杂动作,并保持牌桌可用。与单项技能评测不同,这一环境迫使 agent 在真实物理条件下做出连续性决策,为灵巧操作提供更具挑战的评估基准。
- arXiv大模型
研究团队提出通用偏好强化学习框架
当前大模型后训练阶段存在两条割裂的技术路线:在线强化学习依赖可编程验证器,在数学和代码任务上表现突出,但无法覆盖开放域任务;偏好优化则能处理开放任务,却缺少在线探索带来的推理能力提升。这项研究提出通用偏好强化学习框架,试图将两条路线统一到一个框架下,让模型在开放任务中也能获得类似在线强化学习的推理增益。
- arXiv安全
SafeDiffusion-R1:在线奖励引导的扩散模型安全后训练方法
SafeDiffusion-R1 提出一种在线奖励引导的扩散模型安全后训练方法,无需昂贵的监督数据(如安全图像真值或正负图像对),即可在推理阶段引导模型避开不安全内容。该方法将安全约束转化为可微奖励信号,直接优化扩散模型的生成过程,在保持生成质量的同时显著降低有害内容输出率。相比离线微调方案,SafeDiffusion-R1 更易扩展,为扩散模型的安全部署提供了实用新思路。
- arXiv训练
语义生成式调优方法提升统一多模态模型性能
arXiv 上的一篇论文提出语义生成式调优方法,旨在解决统一多模态模型中视觉理解与生成任务目标分离导致的性能瓶颈。该方法通过语义级别的生成目标统一两种任务的训练信号,替代传统的稀疏文本与密集像素的分离优化策略,使模型在理解和生成任务上取得更好的协同效果。
- arXiv其他
研究提出学习记忆衰减的 Sage-Husa 卡尔曼滤波提升无人机状态估计鲁棒性
无人机在动态环境中常面临遥测中断、结构振动等干扰,导致经典卡尔曼滤波的平稳噪声假设失效。Sage-Husa 卡尔曼滤波虽能在线估计噪声统计量,但其对平稳性的依赖限制了实际效果。这项研究引入学习记忆衰减机制,使滤波器能自适应调整历史信息的权重,从而在非平稳噪声条件下保持状态估计的鲁棒性。实验表明,该方法在真实无人机飞行数据上显著优于传统方案。
- arXivAgent
EnvFactory 通过可执行环境合成与强化学习扩展工具使用 Agent
EnvFactory 提出了一种新范式,通过可执行环境合成和鲁棒强化学习来扩展 LLM 的工具使用能力。现有方法依赖人工编写环境或静态数据集,难以覆盖真实场景中隐含的推理过程。EnvFactory 自动生成多样化的可执行环境,并利用基于 Agentic RL 的训练策略,使 agent 在复杂工具调用中获得更强的泛化性和鲁棒性。该方法有望缓解工具使用 agent 在训练数据稀缺和环境构建成本高两方面的瓶颈,为大规模部署提供了可行的技术路径。
- arXiv训练
研究提出将表格基础模型知识蒸馏至轻量模型的方法
一项新研究探索如何将表格基础模型在结构化健康数据上的预测能力迁移到轻量级模型中。通过知识蒸馏技术,研究者尝试在保持模型性能的同时大幅降低推理成本和基础设施需求,使这些模型更易于在实际医疗场景中部署。这项工作为表格基础模型的实用化提供了可行的技术路径。
- arXiv训练
Learning Normal Representations 论文提出个体化血液生物标志物参考范围方法
arXiv 上 posted 的一篇论文针对临床血液检测中普遍使用的固定人群参考区间提出批评,认为这种统一标准忽视了患者个体内稳定的变异,容易掩盖有意义的偏离信号。研究团队提出了一种学习个体正常表征的方法,能够在保持临床可解释性的同时捕捉个人基线波动,有望提高慢病监测和早期预警的准确性。
- arXiv图像模型
大规模研究细粒度图像识别训练与评估设置的精度与成本权衡
一项涵盖超过2000次实验的大规模研究系统分析了细粒度图像识别中不同训练和评估设置对精度与计算成本的影响。研究发现,在主流基准上,适度的数据增强和较小的模型尺寸即可达到接近最优的性能,而过度增加参数或训练步数带来的收益递减。该研究为实际部署中平衡资源与精度提供了数据驱动的参考依据。
- arXiv编程工具
PopPy 开源利用 Python 复合 AI 应用中并行机会的框架
PopPy 是一个针对 Python 复合 AI 应用的开源框架,其核心思路是自动识别并利用程序中可并行执行的代码片段,从而降低端到端延迟。这类应用通常串联多个 ML 模型调用,瓶颈往往隐藏在看似顺序的流程里。PopPy 在运行时插入动态调度层,将无依赖关系的调用并行化处理,无需开发者手动改写逻辑。对于构建多步 agent 或流水线的团队,这是一个能直接提升响应速度的底层工具。
- arXiv评测
研究发现表格基础模型集成存在多样性上限与校准陷阱
在表格数据任务上,基础模型(TFM)已经能与调优后的梯度提升树抗衡,但单一模型难以称霸所有数据集。一项研究尝试对六个现代 TFM 做集成,却发现它们之间的预测高度重合,多样性存在上限,同时校准效果反而下降。这一“校准陷阱”意味着简单叠加多个模型未必带来期望的增益,为表格模型的实际部署敲响了警钟。
- arXiv训练
研究证明 AdaGrad 在重尾噪声下收敛
该研究从理论层面验证了自适应梯度方法 AdaGrad 在重尾梯度噪声下的收敛性。现代机器学习优化中,梯度噪声常呈现重尾分布,给传统一阶方法带来挑战。该研究分析了 AdaGrad 在此类噪声下的行为,为理解自适应优化器在非理想条件下的表现提供了理论支撑,对训练大模型时的优化器选择有参考价值。
- arXiv评测
SkillGenBench 提出 LLM Agent 技能生成评测基准
随着 LLM agent 越来越多地依赖可复用技能,核心挑战从使用技能转向能否从仓库或文档中生成正确、可执行的技能。SkillGenBench 为此专门设计了评测管道,填补了技能生成环节的基准空白。该工作聚焦 agent 在真实场景中自主构建技能的能力,而非仅评估已有的技能调用。
- arXiv训练
arXiv 提出 LLM 引导的模型补丁用于大规模再优化
运筹优化模型部署到工业环境后,常因业务规则变化或未预见的约束而失效。arXiv 这篇工作提出一种 LLM 引导的模型补丁方法,让非 OR 专家也能对大规模优化模型进行局部再优化,无需重写整个模型。该方法利用大语言模型理解约束变更并生成针对性补丁,降低优化模型维护门槛,提升工业决策系统的适应能力。
- arXiv其他
arXiv 论文探讨量子气体实验的可解释机器学习
这篇 arXiv 论文探讨了机器学习方法在量子气体实验中的可解释性问题。多体原子物理实验技术门槛高、数据集规模和经典模拟的计算需求都面临挑战,ML 方法虽能辅助分析,但其黑箱特性与物理学家对因果机制的理解需求存在张力。作者梳理了当前可解释性技术的适用边界,并讨论了在量子气体场景下实现透明模型的可能性。
- arXiv编程工具
Reversa 发布逆向文档工程框架,将遗留软件转为 AI Agent 操作规范
Reversa 是一个逆向文档工程框架,旨在将遗留系统中的业务规则、架构决策和操作异常转化为 AI agent 可读的操作规范。它从代码、数据、配置和维护实践中提取隐含知识,为基于语言模型的编码 agent 提供可靠的上下文与正确性标准。该框架填补了遗留系统与现代 agent 工作流之间的文档鸿沟,让 agent 能更安全地理解和操作老旧代码库。
- arXiv评测
新研究提出无需真值的可量化视觉解释评估框架
可解释 AI 的评估长期受困于缺乏真实标签。这篇 arXiv 论文提出一个量化指标框架,能够在没有 ground-truth 的情况下衡量视觉解释的质量,为 XAI 方法的验证提供了可比较的基准。该方法不依赖人工标注,直接利用模型内部表征与解释图之间的对齐程度来打分,有望推动可解释性研究的标准化进程。
- arXiv3D
CMAG 发布概念支架检索的虚拟形象生成方法
CMAG 提出一种概念支架检索方法,用于市场虚拟形象生成。用户输入自然语言描述后,系统会在有严格类别和拓扑约束的 3D 资产库中检索并组合出符合要求的虚拟形象,突破了传统仅依赖标签或文本检索的局限。该方法兼顾了自由文本控制与资产组装规则,在虚拟形象市场中有较强的实用性。
- arXiv图像模型
Lance 发布统一多模态模型,支持图像与视频理解、生成和编辑
Lance 是一个轻量级原生统一多模态模型,同时支持图像和视频的理解、生成与编辑。与依赖模型规模或文本-图像主导设计的方案不同,Lance 通过多任务协同探索统一多模态建模的实用范式。该模型在保持轻量化的同时,实现了跨模态能力的整合,为多模态 AI 研究提供了新的技术路径。
- arXiv训练
COOPO 提出循环离线-在线策略优化算法
COOPO 是一项针对强化学习训练模式的新研究,它提出循环离线-在线策略优化算法,试图在静态数据集限制与在线交互成本之间找到平衡。该方法通过周期性切换离线训练和在线环境采样,缓解分布偏移问题,同时降低对大量实时交互的依赖。相较于单纯的离线或在线训练,COOPO 在多个连续控制任务上展现出更好的样本效率与最终性能,为混合训练范式提供了新的设计思路。
- arXiv训练
arXiv 提出前瞻编码与抽象宽度方法改进经典规划策略学习
arXiv 上的一项新研究改进了经典规划中通用策略的学习方法。该工作在 Iterated Width 思路基础上引入前瞻编码和抽象宽度两项技术,使基于图神经网络训练的策略在多个规划领域获得更稳定的泛化表现,策略的决策质量也有明显提升。
- arXiv安全
生成式 AI 广告作为可信商业干预的问题研究
这篇来自 arXiv 的论文探讨了生成式 AI 广告的可信问题。研究指出,尽管主流部署在商业内容与 AI 回复之间保留了可见边界,但嵌入大模型输出中的广告往往被用户忽视。作者认为生成式 AI 从根本上改变了广告的呈现方式,需要重新审视可信商业干预的标准。
2026 年 4 月2 items
- correr-zhou.github.io视频生成模型
字节跳动与港中文发布人-物交互视频生成模型 OmniShow
字节跳动与香港中文大学联合发布 OmniShow,一个专为人-物交互场景设计的端到端视频生成模型。该模型支持图像、音频、姿势与文本多种输入的混合控制,能够生成最长 10 秒的连续视频,并实现人脸保持、物理合理性与口型同步等效果。OmniShow 在人-物交互的生成质量上表现出竞争力,尤其在电商广告等需要精准控制人物与商品互动的场景有明确应用价值。项目页面已上线,代码即将开源。
- arXiv其他
Meta 与 KAUST 团队提出神经计算机概念
Meta 与沙特阿卜杜拉国王科技大学联合提出神经计算机这一全新计算范式,将计算、内存和输入输出统一为一个运行时状态。团队训练了终端和桌面模拟器,展示模型能直接模拟打字、命令执行、鼠标操作等行为,而非仅作为传统计算机的工具。目前该方案仍处于概念验证阶段,存在符号计算不稳定和短序列限制,但为图灵完备、通用可编程的智能计算形态提供了理论方向。
2026 年 3 月2 items
- NatureAgent
Sakana AI 的 The AI Scientist 登上 Nature
Sakana AI 开发的 The AI Scientist 系统登上 Nature,该系统可自动完成从生成研究想法、编写代码、运行实验、分析数据到撰写论文和审稿的全流程。它已向 ICLR 2025 研讨会提交 3 篇论文,其中 1 篇通过盲审,后因 AI 生成协议被主动撤回。系统提供基于模板和无模板两种模式,分别适用于明确任务和开放式探索。
- research.google训练
Google 发布 TurboQuant 压缩算法,KV 缓存内存减少 6 倍速度提升 8 倍
Google 研究团队推出 TurboQuant,一种针对大语言模型键值缓存的新型压缩算法。它通过 PolarQuant 将向量坐标转换为角度与半径表示,省去传统量化常数的存储开销,再以 QJL 的 1 bit 符号量化对残余误差进行零开销修正。在多个数据集上,TurboQuant 实现内存占用降低 6 倍、推理速度提升 8 倍,且不引入精度损失。该方案无需额外训练即可直接部署,为长上下文推理和推荐系统等场景提供了高效的内存管理路径。