research & papers

学术

arXiv 预印本、Nature 等期刊以及研究机构博客（research.google 等）的 AI 相关原始研究。

91 items · 按发布时间倒序

91 items

2026 年 5 月87 items

2026 年 4 月2 items

correr-zhou.github.io视频生成模型2026-04-14
字节跳动与港中文发布人-物交互视频生成模型 OmniShow
字节跳动与香港中文大学联合发布 OmniShow，一个专为人-物交互场景设计的端到端视频生成模型。该模型支持图像、音频、姿势与文本多种输入的混合控制，能够生成最长 10 秒的连续视频，并实现人脸保持、物理合理性与口型同步等效果。OmniShow 在人-物交互的生成质量上表现出竞争力，尤其在电商广告等需要精准控制人物与商品互动的场景有明确应用价值。项目页面已上线，代码即将开源。
arXiv其他2026-04-14
Meta 与 KAUST 团队提出神经计算机概念
Meta 与沙特阿卜杜拉国王科技大学联合提出神经计算机这一全新计算范式，将计算、内存和输入输出统一为一个运行时状态。团队训练了终端和桌面模拟器，展示模型能直接模拟打字、命令执行、鼠标操作等行为，而非仅作为传统计算机的工具。目前该方案仍处于概念验证阶段，存在符号计算不稳定和短序列限制，但为图灵完备、通用可编程的智能计算形态提供了理论方向。

2026 年 3 月2 items

Back to Latest

AR-VLA 提出适用于视觉-语言-行动模型的自回归行动专家

WavFlow 提出波形空间音频生成方法

对称性兼容原则提出优化器设计新方法

DexHoldem 将德扑策略推理与灵巧手操控结合

OSCAR 提出 2-bit KV Cache 离线旋转量化方法

VideoSeeker 通过原生 agent 工具调用提升视频实例级理解能力

多模态 LLM 在临床评分中表现出集中趋势偏差

SCICONVBENCH 发布多轮澄清对话评测基准

TopoPrimer 为时序预测模型补充拓扑上下文

AgentKernelArena 发布 GPU 内核优化 agent 泛化能力评测基准

GRASP：在多人非语言交互中学习社会推理的定位

CHI-Bench 发布：评估 AI Agent 自动化医疗工作流的基准

TOBench 发布面向真实工具使用的全模态 Agent 评测基准

研究提出交互式 AI Agent 认知年龄对齐评估方法

MementoGUI 发布面向长周期 GUI Agent 的多模态记忆控制方法

研究提出 E-PMQ 后合并量化方法，引入合并权重锚定

NGM 提出即插即用的免训练记忆模块

KVPO 提出 ODE-Native GRPO 方法实现自回归视频对齐

StableVLA 提出无需额外数据的视觉-语言-动作模型

SkillsVote 提出 agent skill 从收集推荐到演化的全生命周期治理框架

Code-as-Room 提出从俯视图生成 3D 房间的智能体代码合成方法

OProver 发布统一 agent 框架用于形式化定理证明工具

LiteFrame 提出高效视觉编码器，推动视频大模型帧扩展

CompactAttention 提出 Block-Union KV 选择加速分块预填充

多智能体测试驱动开发框架实现从需求到全栈应用生成

研究者提出测量开源大语言模型最大激活值的方法

AtlasVA 提出自进化视觉技能记忆机制用于无教师 VLM Agent

FINESSE-Bench 发布金融领域 LLM 分层评测基准

SafeDiffusion-R1 提出在线奖励引导的扩散模型安全训练方法

Incantation 将自然语言作为多实体视频世界模型的动作接口

MIT 等提出 Actionable World Representation 框架

Code as Agent Harness 论文提出将代码用作智能体框架

SNLP 提出结构化牛顿校正实现层并行推理

A2RBench 提出可形式验证的抽象推理基准自动生成框架

探测轨迹揭示大模型内部推理动态

MixSD 提出混合上下文自蒸馏方法用于知识注入

AI for Auto-Research 发布路线图与用户指南

NVIDIA 发布 LongLive-2.0 长视频生成并行基础设施

Lance 提出统一多模态模型，通过多任务协同实现

研究提出几何引导的扩散模型与语言模型融合方法

研究提出语义保留早期退出机制加速推理模型

研究揭示 LLM 工具使用中存在“知道—做”鸿沟

EndPrompt 提出终端锚定长上下文扩展方法

研究提出对比对搜索实现目标神经元调制

后训练 MoE 通过自蒸馏跳过半数专家

Agent Bazaar 论文提出多智能体市场中的经济对齐

几何相变理论揭示海马体记忆容量极限机制

新研究评估 3D 基础模型在多视角一致性中的幻觉问题

DashAttention 提出可微分自适应稀疏分层注意力机制

面向运行时变化的流水线并行训练就绪驱动运行时

WavFlow 直接在波形空间生成高保真音频

Aurora 提出基于工具使用 Agent 的统一视频编辑框架

arXiv 论文提出 Code as Agent Harness 框架

ESI-Bench 发布具身空间智能评测基准

SURGE 提出免训练无偏粒子滤波用于扩散模型推理

可操作世界表示研究

Vision-OPD 提出多模态大模型细粒度视觉理解的自蒸馏方法

LongLive-2.0 发布 NVFP4 长视频生成并行基础设施

研究者审计语言模型的临床伦理多元性

Spectral Progressive Diffusion 提出频谱渐进式扩散方法

PIXLRelight 提出基于内在条件控制的单图重光照方法

EgoExoMem：跨视角记忆推理基准发布

训练-free 身份感知记忆方法推进长视频生成一致性

研究揭示 LLM 事实召回受模型大小和主题频率影响

Robo-Cortex 提出双粒度认知记忆与自主知识归纳的自进化具身智能体

DexHoldem 让灵巧手系统学会玩德州扑克

研究团队提出通用偏好强化学习框架

SafeDiffusion-R1：在线奖励引导的扩散模型安全后训练方法

语义生成式调优方法提升统一多模态模型性能

研究提出学习记忆衰减的 Sage-Husa 卡尔曼滤波提升无人机状态估计鲁棒性

EnvFactory 通过可执行环境合成与强化学习扩展工具使用 Agent

研究提出将表格基础模型知识蒸馏至轻量模型的方法

Learning Normal Representations 论文提出个体化血液生物标志物参考范围方法

大规模研究细粒度图像识别训练与评估设置的精度与成本权衡

PopPy 开源利用 Python 复合 AI 应用中并行机会的框架

研究发现表格基础模型集成存在多样性上限与校准陷阱

研究证明 AdaGrad 在重尾噪声下收敛

SkillGenBench 提出 LLM Agent 技能生成评测基准

arXiv 提出 LLM 引导的模型补丁用于大规模再优化

arXiv 论文探讨量子气体实验的可解释机器学习