arXiv · Agent

EnvFactory 通过可执行环境合成与强化学习扩展工具使用 Agent

EnvFactory 提出了一种新范式,通过可执行环境合成和鲁棒强化学习来扩展 LLM 的工具使用能力。现有方法依赖人工编写环境或静态数据集,难以覆盖真实场景中隐含的推理过程。EnvFactory 自动生成多样化的可执行环境,并利用基于 Agentic RL 的训练策略,使 agent 在复杂工具调用中获得更强的泛化性和鲁棒性。该方法有望缓解工具使用 agent 在训练数据稀缺和环境构建成本高两方面的瓶颈,为大规模部署提供了可行的技术路径。

域名
arxiv.org
评分
5 · 重大发布
发布
2026-05-18
EnvFactory 通过可执行环境合成与强化学习扩展工具使用 Agent

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。

原文摘要

Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly r…