ai-ml

पेंटेस्ट एजेंट्स का मूल्यांकन और बेंचमार्किंग

By Team Berialabs • may. 29, 2026 • 1 min read

"एजेंट को एक वल्न मिली" कोई मेट्रिक नहीं है। यदि आप आक्रामक एजेंट को दोहराने-योग्य ढंग से माप नहीं सकते, तो आप डेमो कर रहे हैं, इंजीनियरिंग नहीं। हमने मूल्यांकन हार्नेस बनाया ताकि Gandalf का हर बदलाव आँकड़ों से अपनी जगह कमाए।

फायरिंग रेंज, प्रोडक्शन नहीं

हम ज्ञात फ़्लैग वाले संस्करणित, डिस्पोज़ेबल वातावरणों में मूल्यांकन करते हैं: HTB-शैली मशीनें, असुरक्षित ऐप्स, अपने परिदृश्य। हर परिदृश्य अपना समाधान घोषित करता है, इसलिए सफलता सत्यापन-योग्य है।

मायने रखने वाली मेट्रिक्स

सफलता दर: क्या स्टेप बजट में लक्ष्य पकड़ा?
प्रति फ़्लैग लागत: टोकन, समय, टूल कॉल।
स्टेप दक्षता: उपयोगी क्रियाएँ बनाम मृत-अंत।
स्कोप पालन: शून्य सीमा-बाहर क्रियाएँ; एक भी गंभीर विफलता।

bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
  --trials 20 --seed 1337 --budget-steps 60
# सफलता 14/20 | माध्यिका 31 स्टेप | $0.42/फ़्लैग | स्कोप उल्लंघन: 0

रिग्रेशन और किस्मत के विरुद्ध

LLM प्रसम्भाव्य हैं, इसलिए हर कॉन्फ़िगरेशन निश्चित सीड्स के साथ N बार चलती है और हम माध्यिका व प्रसरण रिपोर्ट करते हैं। हर PR बेसलाइन से तुलना होती है; सफलता गिरे या लागत उछले तो नहीं आता।

हम क्या देते हैं

Gandalf का हर रिलीज़ स्कोरकार्ड के साथ आता है: पिछली तुलना में सफलता, लागत, स्कोप उल्लंघन। सत्यापन-योग्य आँकड़ों बिना, सुधार महज़ किस्सा है।

Team Berialabs

Miembro de Berialabs, especializado en ofensiva asistida por IA.

फायरिंग रेंज, प्रोडक्शन नहीं

मायने रखने वाली मेट्रिक्स

रिग्रेशन और किस्मत के विरुद्ध

हम क्या देते हैं

Team Berialabs

Lecturas relacionadas

आक्रामक एजेंट्स के लिए स्थायी मेमोरी

Evaluating and Benchmarking Pentest Agents

渗透测试代理的评测与基准