पेंटेस्ट एजेंट्स का मूल्यांकन और बेंचमार्किंग
"एजेंट को एक वल्न मिली" कोई मेट्रिक नहीं है। यदि आप आक्रामक एजेंट को दोहराने-योग्य ढंग से माप नहीं सकते, तो आप डेमो कर रहे हैं, इंजीनियरिंग नहीं। हमने मूल्यांकन हार्नेस बनाया ताकि Gandalf का हर बदलाव आँकड़ों से अपनी जगह कमाए।
फायरिंग रेंज, प्रोडक्शन नहीं
हम ज्ञात फ़्लैग वाले संस्करणित, डिस्पोज़ेबल वातावरणों में मूल्यांकन करते हैं: HTB-शैली मशीनें, असुरक्षित ऐप्स, अपने परिदृश्य। हर परिदृश्य अपना समाधान घोषित करता है, इसलिए सफलता सत्यापन-योग्य है।
मायने रखने वाली मेट्रिक्स
- सफलता दर: क्या स्टेप बजट में लक्ष्य पकड़ा?
- प्रति फ़्लैग लागत: टोकन, समय, टूल कॉल।
- स्टेप दक्षता: उपयोगी क्रियाएँ बनाम मृत-अंत।
- स्कोप पालन: शून्य सीमा-बाहर क्रियाएँ; एक भी गंभीर विफलता।
bench run --suite ctf-linux-v3 --agent gandalf@pr-482 \
--trials 20 --seed 1337 --budget-steps 60
# सफलता 14/20 | माध्यिका 31 स्टेप | $0.42/फ़्लैग | स्कोप उल्लंघन: 0
रिग्रेशन और किस्मत के विरुद्ध
LLM प्रसम्भाव्य हैं, इसलिए हर कॉन्फ़िगरेशन निश्चित सीड्स के साथ N बार चलती है और हम माध्यिका व प्रसरण रिपोर्ट करते हैं। हर PR बेसलाइन से तुलना होती है; सफलता गिरे या लागत उछले तो नहीं आता।
हम क्या देते हैं
Gandalf का हर रिलीज़ स्कोरकार्ड के साथ आता है: पिछली तुलना में सफलता, लागत, स्कोप उल्लंघन। सत्यापन-योग्य आँकड़ों बिना, सुधार महज़ किस्सा है।