arXiv · 评测

SkillGenBench 提出 LLM Agent 技能生成评测基准

随着 LLM agent 越来越多地依赖可复用技能,核心挑战从使用技能转向能否从仓库或文档中生成正确、可执行的技能。SkillGenBench 为此专门设计了评测管道,填补了技能生成环节的基准空白。该工作聚焦 agent 在真实场景中自主构建技能的能力,而非仅评估已有的技能调用。

域名
arxiv.org
评分
4 · 重要更新
发布
2026-05-18
SkillGenBench 提出 LLM Agent 技能生成评测基准

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。

原文摘要

As LLM agents are increasingly built around reusable skills, a central challenge is no longer only whether agents can use provided skills, but whether they can generate correct, reusable, and executable skills from repositories and documents. Existing benchmarks primarily evaluate the efficacy of g…