渗透测试代理的评测与基准
若无法可重复地度量攻击型代理,你做的是演示而非工程。我们的评测框架:成功率、每 flag 成本与范围遵守。
若无法可重复地度量攻击型代理,你做的是演示而非工程。我们的评测框架:成功率、每 flag 成本与范围遵守。
渗透测试装不进一个上下文窗口。我们如何为代理提供跨阶段持续、且不泄露范围的操作记忆。
扁平 RAG 检索段落;而行动以关系思考。我们把 Beorn 接到 ATT&CK 知识图谱,以决定下一步。
让 agent 运行漏洞利用需要严肃的隔离。何时 seccomp-bpf 足够,何时我们在其上叠加 gVisor。
为什么单个 LLM 无法端到端地运行整个渗透测试,以及我们如何扩展 Thought-Action-Observation 循环以在 Gandalf CLI 中协调代理。
我们如何构建最小化的 seccomp-bpf 配置,让 LLM 执行的漏洞利用不会变成主机上意外的 rm -rf。
为什么没有追踪的红队是站不住脚的:我们如何用 OpenTelemetry、eBPF 以及映射到 MITRE ATT&CK 的 span 来检测代理的每一个决策。
一个 kill-switch、一个 seccomp-bpf 过滤器和几条 CIDR 规则,如何切断了无网络实验室中 LLM 代理的无声泄漏。来自一线的经验。
我们训练一个 PPO 智能体将崩溃转化为控制流劫持。使用 eBPF 的奖励、坦诚的失败和真实的代码。一路走来所学到的东西。
索引 9115 篇 HTB writeup 并不是构建搜索引擎,而是为一个正在进行渗透的智能体提供操作记忆。以下是我们学到的经验。
为什么我们让三个智能体(批判型、证据型和技术型)在关闭每个发现之前对其进行辩论,包含真实指标和权衡。
我们如何在 Gwaihir CLI 中将 AFL++ 与 LLM 生成的种子相结合,对复杂解析器进行模糊测试,而不会被初始验证崩溃所淹没。