ai-ml

渗透测试代理的评测与基准

"代理找到了一个漏洞"不是指标。如果你无法可重复地度量攻击型代理,那你做的不是工程,而是演示。我们构建了评测框架,让 Gandalf 的每次改动都用数字赢得位置。

靶场,而非生产环境

我们在带已知 flag 的、版本化且可丢弃的环境中评测:HTB 风格靶机、易受攻击的应用、自有场景。每个场景声明其解法,因此成功可验证。

真正重要的指标

  • 成功率: 是否在步数预算内拿下目标?
  • 每 flag 成本: token、时间与工具调用。
  • 步骤效率: 有用动作 对 死胡同。
  • 范围遵守: 越界动作为零;一次即严重失败。
bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
  --trials 20 --seed 1337 --budget-steps 60
# 成功 14/20 | 中位数 31 步 | $0.42/flag | 范围违规: 0

对抗回归与运气

LLM 是随机的,因此每个配置以固定随机种子运行 N 次,我们报告中位数与方差,而非最佳一次。每个 PR 与基线比较;成功率下降或成本飙升则不合入。

我们交付什么

每个版本都附带成绩单:相较上一版本的成功率、成本与范围违规。没有可验证的数字,改进不过是一则轶事。