ai-ml

Evaluación y Benchmarking de Agentes de Pentest

By Team Berialabs • may. 29, 2026 • 1 min read

"El agente encontró una vuln" no es una métrica. Si no puedes medir a un agente ofensivo de forma repetible, no estás haciendo ingeniería: estás haciendo demos. Construimos un harness de evaluación para que cada cambio en Gandalf se gane su sitio con números.

Rangos de tiro, no producción

Evaluamos contra entornos versionados y desechables con flags conocidas: máquinas estilo HTB, apps vulnerables y escenarios propios. Cada escenario declara su solución, así que el éxito es verificable y no opinable.

Métricas que importan

Tasa de éxito: ¿capturó el objetivo dentro del presupuesto de pasos?
Coste por flag: tokens, tiempo y llamadas a tools.
Eficiencia de pasos: acciones útiles frente a callejones sin salida.
Adhesión al scope: cero acciones fuera de límites; una sola es fallo crítico.

bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
  --trials 20 --seed 1337 --budget-steps 60
# success 14/20 | mediana 31 pasos | $0.42/flag | scope viol: 0

Contra la regresión y la suerte

Los LLM son estocásticos, así que cada configuración corre N veces con semillas fijas y reportamos mediana y varianza, no el mejor intento. Cada PR se compara con la línea base; si baja el éxito o se dispara el coste, no entra.

Lo que enviamos

Cada release de Gandalf llega con su scorecard: éxito, coste y violaciones de scope frente a la versión anterior. Sin cifras verificables, una mejora es solo una anécdota.

Team Berialabs

Miembro de Berialabs, especializado en ofensiva asistida por IA.

Rangos de tiro, no producción

Métricas que importan

Contra la regresión y la suerte

Lo que enviamos

Team Berialabs

Lecturas relacionadas

आक्रामक एजेंट्स के लिए स्थायी मेमोरी

Evaluating and Benchmarking Pentest Agents

渗透测试代理的评测与基准