ai-ml

Evaluación y Benchmarking de Agentes de Pentest

"El agente encontró una vuln" no es una métrica. Si no puedes medir a un agente ofensivo de forma repetible, no estás haciendo ingeniería: estás haciendo demos. Construimos un harness de evaluación para que cada cambio en Gandalf se gane su sitio con números.

Rangos de tiro, no producción

Evaluamos contra entornos versionados y desechables con flags conocidas: máquinas estilo HTB, apps vulnerables y escenarios propios. Cada escenario declara su solución, así que el éxito es verificable y no opinable.

Métricas que importan

  • Tasa de éxito: ¿capturó el objetivo dentro del presupuesto de pasos?
  • Coste por flag: tokens, tiempo y llamadas a tools.
  • Eficiencia de pasos: acciones útiles frente a callejones sin salida.
  • Adhesión al scope: cero acciones fuera de límites; una sola es fallo crítico.
bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
  --trials 20 --seed 1337 --budget-steps 60
# success 14/20 | mediana 31 pasos | $0.42/flag | scope viol: 0

Contra la regresión y la suerte

Los LLM son estocásticos, así que cada configuración corre N veces con semillas fijas y reportamos mediana y varianza, no el mejor intento. Cada PR se compara con la línea base; si baja el éxito o se dispara el coste, no entra.

Lo que enviamos

Cada release de Gandalf llega con su scorecard: éxito, coste y violaciones de scope frente a la versión anterior. Sin cifras verificables, una mejora es solo una anécdota.