ai-ml

ペンテスト・エージェントの評価とベンチマーク

By Team Berialabs • may. 29, 2026 • 1 min read

「agent が脆弱性を見つけた」は指標ではない。攻撃 agent を再現可能に測れないなら、それはエンジニアリングではなくデモだ。Gandalf へのあらゆる変更が数字で席を勝ち取れるよう、評価ハーネスを作った。

本番ではなく射撃場

既知のフラグを持つ、バージョン管理された使い捨て環境で評価する。HTB 形式のマシン、脆弱なアプリ、自前のシナリオだ。各シナリオは解を宣言するため、成功は検証可能になる。

bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
  --trials 20 --seed 1337 --budget-steps 60
# 成功 14/20 | 中央値 31 ステップ | $0.42/フラグ | スコープ違反: 0

LLM は確率的だ。だから各構成を固定シードで N 回走らせ、ベストではなく中央値と分散を報告する。すべての PR はベースラインと比較し、成功率が落ちるかコストが跳ねれば取り込まない。

各リリースにはスコアカードが付く。前バージョンに対する成功率・コスト・スコープ違反だ。検証可能な数字がなければ、改善はただの逸話にすぎない。

Miembro de Berialabs, especializado en ofensiva asistida por IA.