arXiv · Agent

EnvFactory 通过可执行环境合成与强化学习扩展工具使用 Agent

EnvFactory 提出了一种新范式，通过可执行环境合成和鲁棒强化学习来扩展 LLM 的工具使用能力。现有方法依赖人工编写环境或静态数据集，难以覆盖真实场景中隐含的推理过程。EnvFactory 自动生成多样化的可执行环境，并利用基于 Agentic RL 的训练策略，使 agent 在复杂工具调用中获得更强的泛化性和鲁棒性。该方法有望缓解工具使用 agent 在训练数据稀缺和环境构建成本高两方面的瓶颈，为大规模部署提供了可行的技术路径。

域名: arxiv.org
评分: 5 · 重大发布
发布: 2026-05-18

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

原文摘要

Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly r…

Back to Latest