تقييم وقياس أداء وكلاء اختبار الاختراق
"الوكيل وجد ثغرة" ليست مقياساً. إن لم تستطع قياس وكيل هجومي بشكل قابل للتكرار، فأنت لا تمارس الهندسة بل العروض. بنينا منظومة تقييم كي يكسب كل تغيير في Gandalf مكانه بالأرقام.
ميادين رماية، لا إنتاج
نُقيّم في بيئات مُصدَّرة قابلة للاستهلاك ذات أعلام معروفة: أجهزة بنمط HTB، تطبيقات مصابة، وسيناريوهات خاصة. كل سيناريو يُعلن حلّه، فالنجاح قابل للتحقق لا للرأي.
مقاييس تهمّ
- معدّل النجاح: هل التقط الهدف ضمن ميزانية الخطوات؟
- التكلفة لكل علَم: الرموز والوقت ونداءات الأدوات.
- كفاءة الخطوات: أفعال مفيدة مقابل طرق مسدودة.
- الالتزام بالنطاق: صفر أفعال خارج الحدود؛ وفعل واحد فشل حرج.
bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
--trials 20 --seed 1337 --budget-steps 60
# نجاح 14/20 | وسيط 31 خطوة | 0.42$/علَم | خرق النطاق: 0
ضد الانحدار والحظ
النماذج عشوائية، لذا تُشغَّل كل تهيئة N مرة ببذور ثابتة، ونُبلّغ بالوسيط والتباين لا بأفضل محاولة. كل طلب دمج يُقارن بخط الأساس؛ فإن انخفض النجاح أو قفزت التكلفة لا يُدمج.
ما الذي نقدّمه
يأتي كل إصدار ببطاقة نتائج: نجاح وتكلفة وخروق نطاق مقابل النسخة السابقة. بلا أرقام قابلة للتحقق، التحسين مجرّد حكاية.