تقييم وقياس أداء وكلاء اختبار الاختراق
إن لم تستطع قياس وكيل هجومي بشكل قابل للتكرار فأنت تقدّم عروضاً لا هندسة. منظومتنا: معدّل النجاح والتكلفة لكل علَم والالتزام بالنطاق.
إن لم تستطع قياس وكيل هجومي بشكل قابل للتكرار فأنت تقدّم عروضاً لا هندسة. منظومتنا: معدّل النجاح والتكلفة لكل علَم والالتزام بالنطاق.
الـ RAG المسطّح يسترجع فقرات؛ أما العملية فتفكّر بالعلاقات. ربطنا Beorn برسم معرفي على ATT&CK لتحديد الخطوة التالية.
اختبار الاختراق لا يتّسع في نافذة سياق واحدة. هكذا نمنح وكلاءنا ذاكرة تشغيلية تدوم عبر المراحل دون تسريب النطاق.
السماح لوكيل بتشغيل الثغرات يتطلّب عزلاً جادّاً. متى يكفي seccomp-bpf ومتى نُراكِب gVisor فوقه.
لماذا لا يستطيع LLM واحد إجراء اختبار اختراق كامل من البداية إلى النهاية، وكيف قمنا بتوسيع حلقة Thought-Action-Observation لتنسيق الوكلاء في Gandalf CLI.
كيف بنينا ملفات تعريف seccomp-bpf مصغّرة حتى لا تتحوّل ثغرات يشغّلها نموذج لغوي كبير إلى rm -rf عرضي على المضيف.
لماذا لا يمكن الدفاع عن فريق أحمر بلا آثار: كيف نوثّق كل قرار من قرارات وكيلنا باستخدام OpenTelemetry وeBPF وspans مرتبطة بـ MITRE ATT&CK.
كيف قطع kill-switch وفلتر seccomp-bpf وبعض قواعد CIDR التسرّب الصامت لوكيل LLM داخل مختبر بلا إنترنت. دروس من الميدان.
ندرّب وكيل PPO لتحويل الانهيارات إلى اختطاف لتدفق التحكم. مكافآت باستخدام eBPF، إخفاقات صادقة وكود حقيقي. ما تعلمناه على الطريق.
فهرسة 9115 writeup من HTB ليست بناءَ محرّك بحث: إنها منح ذاكرة تشغيلية لعميل يقف في منتصف عملية استغلال. هذا ما تعلمناه.
لماذا نجعل ثلاثة وكلاء (نقدي، استدلالي، تقني) يتناظرون حول كل اكتشاف قبل إغلاقه، مع مقاييس حقيقية ومقايضات.
كيف جمعنا بين AFL++ والبذور المولَّدة بواسطة LLM في Gwaihir CLI لاختبار محللات معقدة دون أن نغرق في أعطال التحقق الأولية.