ペンテスト・エージェントの評価とベンチマーク
「agent が脆弱性を見つけた」は指標ではない。攻撃 agent を再現可能に測れないなら、それはエンジニアリングではなくデモだ。Gandalf へのあらゆる変更が数字で席を勝ち取れるよう、評価ハーネスを作った。
本番ではなく射撃場
既知のフラグを持つ、バージョン管理された使い捨て環境で評価する。HTB 形式のマシン、脆弱なアプリ、自前のシナリオだ。各シナリオは解を宣言するため、成功は検証可能になる。
重要な指標
- 成功率: ステップ予算内で目標を奪取したか。
- フラグ単価: トークン・時間・ツール呼び出し。
- ステップ効率: 有用な行動 対 行き止まり。
- スコープ遵守: 範囲外行動はゼロ。一度でも重大失敗。
bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
--trials 20 --seed 1337 --budget-steps 60
# 成功 14/20 | 中央値 31 ステップ | $0.42/フラグ | スコープ違反: 0
回帰と幸運に抗して
LLM は確率的だ。だから各構成を固定シードで N 回走らせ、ベストではなく中央値と分散を報告する。すべての PR はベースラインと比較し、成功率が落ちるかコストが跳ねれば取り込まない。
私たちが提供するもの
各リリースにはスコアカードが付く。前バージョンに対する成功率・コスト・スコープ違反だ。検証可能な数字がなければ、改善はただの逸話にすぎない。