Evaluación y Benchmarking de Agentes de Pentest
"El agente encontró una vuln" no es una métrica. Si no puedes medir a un agente ofensivo de forma repetible, no estás haciendo ingeniería: estás haciendo demos. Construimos un harness de evaluación para que cada cambio en Gandalf se gane su sitio con números.
Rangos de tiro, no producción
Evaluamos contra entornos versionados y desechables con flags conocidas: máquinas estilo HTB, apps vulnerables y escenarios propios. Cada escenario declara su solución, así que el éxito es verificable y no opinable.
Métricas que importan
- Tasa de éxito: ¿capturó el objetivo dentro del presupuesto de pasos?
- Coste por flag: tokens, tiempo y llamadas a tools.
- Eficiencia de pasos: acciones útiles frente a callejones sin salida.
- Adhesión al scope: cero acciones fuera de límites; una sola es fallo crítico.
bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
--trials 20 --seed 1337 --budget-steps 60
# success 14/20 | mediana 31 pasos | $0.42/flag | scope viol: 0
Contra la regresión y la suerte
Los LLM son estocásticos, así que cada configuración corre N veces con semillas fijas y reportamos mediana y varianza, no el mejor intento. Cada PR se compara con la línea base; si baja el éxito o se dispara el coste, no entra.
Lo que enviamos
Cada release de Gandalf llega con su scorecard: éxito, coste y violaciones de scope frente a la versión anterior. Sin cifras verificables, una mejora es solo una anécdota.