ai-ml

渗透测试代理的评测与基准

By Team Berialabs • may. 29, 2026 • 1 min read

"代理找到了一个漏洞"不是指标。如果你无法可重复地度量攻击型代理,那你做的不是工程,而是演示。我们构建了评测框架,让 Gandalf 的每次改动都用数字赢得位置。

靶场,而非生产环境

我们在带已知 flag 的、版本化且可丢弃的环境中评测:HTB 风格靶机、易受攻击的应用、自有场景。每个场景声明其解法,因此成功可验证。

bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
  --trials 20 --seed 1337 --budget-steps 60
# 成功 14/20 | 中位数 31 步 | $0.42/flag | 范围违规: 0

LLM 是随机的,因此每个配置以固定随机种子运行 N 次,我们报告中位数与方差,而非最佳一次。每个 PR 与基线比较;成功率下降或成本飙升则不合入。

每个版本都附带成绩单:相较上一版本的成功率、成本与范围违规。没有可验证的数字,改进不过是一则轶事。

Miembro de Berialabs, especializado en ofensiva asistida por IA.