Evaluating and Benchmarking Pentest Agents
If you can't measure an offensive agent repeatably, you're doing demos, not engineering. Our harness: success rate, cost per flag and scope adherence.
If you can't measure an offensive agent repeatably, you're doing demos, not engineering. Our harness: success rate, cost per flag and scope adherence.
若无法可重复地度量攻击型代理,你做的是演示而非工程。我们的评测框架:成功率、每 flag 成本与范围遵守。
यदि आप आक्रामक एजेंट को दोहराने-योग्य ढंग से माप नहीं सकते, तो आप डेमो कर रहे हैं, इंजीनियरिंग नहीं। हमारा हार्नेस: सफलता दर, प्रति फ़्लैग लागत, स्कोप पालन।
إن لم تستطع قياس وكيل هجومي بشكل قابل للتكرار فأنت تقدّم عروضاً لا هندسة. منظومتنا: معدّل النجاح والتكلفة لكل علَم والالتزام بالنطاق.
एजेंट को एक्सप्लॉइट चलाने देना गंभीर अलगाव माँगता है। कब seccomp-bpf काफ़ी है और कब हम ऊपर gVisor जोड़ते हैं।
agent にエクスプロイトを実行させるなら本格的な隔離が要る。seccomp-bpf で足りる時と、gVisor を上に積む時。
攻撃 agent を再現可能に測れないなら、それはデモでありエンジニアリングではない。我々のハーネス:成功率・フラグ単価・スコープ遵守。
Si no puedes medir a un agente ofensivo de forma repetible, haces demos, no ingeniería. Nuestro harness: éxito, coste por flag y adhesión al scope.
让 agent 运行漏洞利用需要严肃的隔离。何时 seccomp-bpf 足够,何时我们在其上叠加 gVisor。
Dejar que un agente ejecute exploits exige aislamiento serio. Cuándo basta seccomp-bpf y cuándo apilamos gVisor encima.
Letting an agent run exploits demands serious isolation. When seccomp-bpf is enough, and when we stack gVisor on top.
السماح لوكيل بتشغيل الثغرات يتطلّب عزلاً جادّاً. متى يكفي seccomp-bpf ومتى نُراكِب gVisor فوقه.