Gwaihir CLI v2.8.4

Pentesting Autónomo
con Tool Calling Real

Motor agentic de 13.2 MB con ejecución directa de tools ofensivos, introspección binaria y telemetría estructurada para Red Teams distribuidos.

Ver arquitectura →

Execution Engine

Runtime híbrido Rust/Zig con sandboxing seccomp-bpf y syscall tracing para control granular de tools.

🧠

Agentic Reasoning

Pipeline de inferencia con ReAct prompting, CoT verification y reflexion loops para decisiones auditables.

🔍

Observability

OpenTelemetry traces, JSON streaming y eBPF hooks para correlación de eventos en SIEM downstream.

Arquitectura del Motor Agentic

Gwaihir implementa un runtime determinista con tool calling nativo, eliminando capas de abstracción y reduciendo latencia de ejecución en un 87% vs. frameworks Python tradicionales.

gwaihir --explain-tool nuclei
Tool: nuclei
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Binary Path:     /usr/local/bin/nuclei
Checksum (SHA3): a7f3c9e2b1d8...4f2a (verified)
Capabilities:    CAP_NET_RAW, CAP_NET_ADMIN

⚙️ Execution Profile
  • Sandboxing: seccomp-bpf (strict mode)
  • Syscalls allowed: 47 (read, write, socket, connect...)
  • Network namespace: isolated with iptables egress filter
  • Resource limits: 4GB RAM, 2 CPU cores, 300s timeout

🔧 Tool Call Schema (Zod validated)
{
  "name": "scan_web_vulnerabilities",
  "description": "Runs Nuclei scanner with curated templates",
  "parameters": {
    "target": { "type": "url", "required": true },
    "severity": { "enum": ["info","low","medium","high","critical"] },
    "tags": { "type": "array", "items": "string" },
    "rate_limit": { "type": "int", "default": 150, "max": 500 }
  },
  "returns": {
    "findings": "Finding[]",
    "stats": "ScanStats",
    "exit_code": "int"
  }
}

Last execution: 2025-10-23T12:34:11Z (scope: *.acme.com)
Avg latency: 2.3s | Success rate: 94.2% (last 30 days)

Core Components

Inference Engine (Rust)

Wrapper sobre llama.cpp con quantización GGUF Q4_K_M, KV cache optimizado y especulación de tokens para latencia <200ms en hardware commodity.

src/inference/llama_bridge.rs

Tool Registry (Zig)

Sistema de registro dinámico con schema validation (Zod), capability negotiation y binary integrity checks vía SGX enclaves en infraestructura TEE-enabled.

src/tools/registry.zig

Execution Sandbox (seccomp-bpf)

Aislamiento a nivel syscall con whitelist estricta, namespace isolation (net, pid, mount) y cgroup v2 para resource governance. Soporta hot-reload de políticas sin restart.

src/sandbox/seccomp.rs

Telemetry Pipeline (OpenTelemetry)

Exportador OTLP con batching adaptativo, sampling basado en tail-based decisions y correlation IDs para tracing distribuido. Integración nativa con Jaeger, Tempo y Honeycomb.

src/telemetry/otel_exporter.rs

Modelo de Ejecución

ReAct loop con verificación en cada paso, rollback automático ante errores y checkpointing incremental para reproducibilidad total.

1

Thought (Reasoning)

El agente analiza el objetivo, consulta Beorn para TTPs relevantes y genera un plan de acción con dependency graph explícito.

2

Action (Tool Call)

Ejecución de tool con parámetros validados por schema Zod, en sandbox aislado con logging de syscalls y network capture (pcap).

3

Observation (Parse)

Parser estructurado extrae findings en formato normalizado (SARIF/JSON), enriquece con CVE context y calcula severity scores.

🔁 Reflexion & Retry Logic

Si un tool call falla (exit code != 0, timeout o output vacío), Gwaihir ejecuta un reflexion loop: analiza stderr, consulta troubleshooting docs en Beorn y reintenta con parámetros ajustados. Máximo 3 intentos con exponential backoff.

Especificaciones Técnicas

Diseñado para entornos air-gapped, SOCs distribuidos y operaciones bajo latencia extrema.

Runtime

  • Lenguajes: Rust 1.75+ (core), Zig 0.12 (tools), C (bindings)
  • Binary size: 13.2 MB (static linking, UPX comprimido)
  • Startup time: <100ms (lazy loading de tools registry)
  • Memory footprint: 64MB base + 256MB per active agent

Inferencia

  • Modelos soportados: Llama 3.1, Qwen 2.5, Mixtral, Phi-3
  • Quantización: GGUF Q4_K_M (óptimo), Q8_0 (precisión)
  • Context window: 32K tokens (sliding window attention)
  • Latencia típica: 180ms @ RTX 4090, 450ms @ CPU (AVX2)

Seguridad

  • Sandboxing: seccomp-bpf strict + landlock LSM
  • Code signing: Binaries firmados con Sigstore (Cosign)
  • Secrets: Encrypted storage con age + hardware keyring
  • Audit logging: Immutable append-only log (WORM mode)

Integración

  • API: gRPC bidireccional con Protobuf v3 schemas
  • Output formats: JSON, JSONL, SARIF, XML, custom parsers
  • SIEM: Exporters para Splunk, ELK, QRadar, Sentinel
  • CI/CD: GitHub Actions, GitLab CI, Jenkins plugins

Listo para Ejecutar Pentesting Autónomo

Únete a la beta privada y accede a builds early-access, documentación técnica completa y soporte directo del equipo de ingeniería.