ai-ml

ペンテスト・エージェントの評価とベンチマーク

「agent が脆弱性を見つけた」は指標ではない。攻撃 agent を再現可能に測れないなら、それはエンジニアリングではなくデモだ。Gandalf へのあらゆる変更が数字で席を勝ち取れるよう、評価ハーネスを作った。

本番ではなく射撃場

既知のフラグを持つ、バージョン管理された使い捨て環境で評価する。HTB 形式のマシン、脆弱なアプリ、自前のシナリオだ。各シナリオは解を宣言するため、成功は検証可能になる。

重要な指標

  • 成功率: ステップ予算内で目標を奪取したか。
  • フラグ単価: トークン・時間・ツール呼び出し。
  • ステップ効率: 有用な行動 対 行き止まり。
  • スコープ遵守: 範囲外行動はゼロ。一度でも重大失敗。
bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
  --trials 20 --seed 1337 --budget-steps 60
# 成功 14/20 | 中央値 31 ステップ | $0.42/フラグ | スコープ違反: 0

回帰と幸運に抗して

LLM は確率的だ。だから各構成を固定シードで N 回走らせ、ベストではなく中央値と分散を報告する。すべての PR はベースラインと比較し、成功率が落ちるかコストが跳ねれば取り込まない。

私たちが提供するもの

各リリースにはスコアカードが付く。前バージョンに対する成功率・コスト・スコープ違反だ。検証可能な数字がなければ、改善はただの逸話にすぎない。