Constitutional AI for Offensive Agents
How we applied Constitutional AI and RLAIF to Gandalf CLI so that our offensive agents reject out-of-scope actions on their own, without relying on manual prompt engineering.
How we applied Constitutional AI and RLAIF to Gandalf CLI so that our offensive agents reject out-of-scope actions on their own, without relying on manual prompt engineering.
كيف طبّقنا Constitutional AI و RLAIF على Gandalf CLI حتى يرفض وكلاؤنا الهجوميون من تلقاء أنفسهم الإجراءات الخارجة عن النطاق دون الاعتماد على هندسة المطالبات اليدوية.
Entrenamos un agente PPO para convertir crashes en control flow hijacking. Recompensas con eBPF, fracasos honestos y código real. Lo aprendido en el camino.
Cómo combinamos AFL++ con seeds generadas por LLM en Gwaihir CLI para fuzzear parsers complejos sin ahogarnos en crashes de validación inicial.
Por qué hacemos que tres agentes (crítico, evidencial y técnico) debatan cada finding antes de cerrarlo, con métricas reales y trade-offs.
Cómo defendemos a Gandalf, Gwaihir y Beorn de payloads escondidos en banners, writeups y respuestas DNS. Instruction hierarchy, Spotlighting, StruQ y nuestro Sentinel.
Cómo aplicamos Constitutional AI y RLAIF a Gandalf CLI para que nuestros agentes ofensivos rechacen por sí mismos acciones fuera de scope sin depender de prompt engineering manual.
Por qué un red team sin trazas es indefendible: cómo instrumentamos cada decisión de nuestro agente con OpenTelemetry, eBPF y spans mapeados a MITRE ATT&CK.
Por qué un solo LLM no puede llevar un pentest entero de punta a punta, y cómo extendimos el bucle Thought-Action-Observation para coordinar agentes en Gandalf CLI.
Cómo construimos perfiles seccomp-bpf mínimos para que los exploits que ejecuta un LLM no se conviertan en un rm -rf accidental sobre el host.
Indexar 9115 writeups de HTB no es construir un buscador: es darle memoria operativa a un agente que está en mitad de un exploit. Esto aprendimos.
Cómo un kill-switch, un filtro seccomp-bpf y unas reglas CIDR cortaron la fuga silenciosa de un agente LLM en un laboratorio sin internet. Lecciones de campo.