Anthropic · 评测

Anthropic 提出用模型编写评测来发现语言模型行为

Anthropic 发布了一项新研究，提出让语言模型自行编写评测任务来系统性地发现其行为模式。该方法利用模型生成多样化的测试场景，帮助研究人员更高效地识别模型在推理、安全等方面的潜在问题，为模型评估提供了新的自动化思路。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。