Evaluación y Benchmarking de Agentes de Pentest
Si no puedes medir a un agente ofensivo de forma repetible, haces demos, no ingeniería. Nuestro harness: éxito, coste por flag y adhesión al scope.
Si no puedes medir a un agente ofensivo de forma repetible, haces demos, no ingeniería. Nuestro harness: éxito, coste por flag y adhesión al scope.
フラットな RAG は段落を返すが、オペレーションは関係で考える。次の一手を決めるため Beorn を ATT&CK のナレッジグラフへ接続した。
اختبار الاختراق لا يتّسع في نافذة سياق واحدة. هكذا نمنح وكلاءنا ذاكرة تشغيلية تدوم عبر المراحل دون تسريب النطاق.
El RAG plano recupera párrafos; una operación piensa en relaciones. Conectamos Beorn a un grafo de conocimiento sobre ATT&CK para decidir el siguiente paso.
A pentest does not fit in a context window. How we give our agents operational memory that survives across phases without leaking scope.
Flat RAG retrieves paragraphs; an operation thinks in relationships. We wired Beorn to an ATT&CK knowledge graph to decide the next move.
为什么单个 LLM 无法端到端地运行整个渗透测试,以及我们如何扩展 Thought-Action-Observation 循环以在 Gandalf CLI 中协调代理。
なぜ単一の LLM ではペンテスト全体をエンドツーエンドで実行できないのか、そして Gandalf CLI でエージェントを連携させるために Thought-Action-Observation ループをどのように拡張したか。
क्यों एक अकेला LLM एक पूरे पेंटेस्ट को एंड-टू-एंड नहीं चला सकता, और हमने Gandalf CLI में एजेंटों को समन्वित करने के लिए Thought-Action-Observation लूप को कैसे विस्तारित किया।
Why a single LLM cannot run an entire pentest end-to-end, and how we extended the Thought-Action-Observation loop to coordinate agents in Gandalf CLI.
لماذا لا يستطيع LLM واحد إجراء اختبار اختراق كامل من البداية إلى النهاية، وكيف قمنا بتوسيع حلقة Thought-Action-Observation لتنسيق الوكلاء في Gandalf CLI.
我们训练一个 PPO 智能体将崩溃转化为控制流劫持。使用 eBPF 的奖励、坦诚的失败和真实的代码。一路走来所学到的东西。