ai-ml

تقييم وقياس أداء وكلاء اختبار الاختراق

By Team Berialabs • may. 29, 2026 • 1 min read

"الوكيل وجد ثغرة" ليست مقياساً. إن لم تستطع قياس وكيل هجومي بشكل قابل للتكرار، فأنت لا تمارس الهندسة بل العروض. بنينا منظومة تقييم كي يكسب كل تغيير في Gandalf مكانه بالأرقام.

ميادين رماية، لا إنتاج

نُقيّم في بيئات مُصدَّرة قابلة للاستهلاك ذات أعلام معروفة: أجهزة بنمط HTB، تطبيقات مصابة، وسيناريوهات خاصة. كل سيناريو يُعلن حلّه، فالنجاح قابل للتحقق لا للرأي.

مقاييس تهمّ

معدّل النجاح: هل التقط الهدف ضمن ميزانية الخطوات؟
التكلفة لكل علَم: الرموز والوقت ونداءات الأدوات.
كفاءة الخطوات: أفعال مفيدة مقابل طرق مسدودة.
الالتزام بالنطاق: صفر أفعال خارج الحدود؛ وفعل واحد فشل حرج.

bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
  --trials 20 --seed 1337 --budget-steps 60
# نجاح 14/20 | وسيط 31 خطوة | 0.42$/علَم | خرق النطاق: 0

ضد الانحدار والحظ

النماذج عشوائية، لذا تُشغَّل كل تهيئة N مرة ببذور ثابتة، ونُبلّغ بالوسيط والتباين لا بأفضل محاولة. كل طلب دمج يُقارن بخط الأساس؛ فإن انخفض النجاح أو قفزت التكلفة لا يُدمج.

ما الذي نقدّمه

يأتي كل إصدار ببطاقة نتائج: نجاح وتكلفة وخروق نطاق مقابل النسخة السابقة. بلا أرقام قابلة للتحقق، التحسين مجرّد حكاية.

Team Berialabs

Miembro de Berialabs, especializado en ofensiva asistida por IA.

ميادين رماية، لا إنتاج

مقاييس تهمّ

ضد الانحدار والحظ

ما الذي نقدّمه

Team Berialabs

Lecturas relacionadas

आक्रामक एजेंट्स के लिए स्थायी मेमोरी

Evaluating and Benchmarking Pentest Agents

渗透测试代理的评测与基准