Tag

lang-zh

red-team

Agentic 系统中的 prompt injection 防御

我们如何保护 Gandalf、Gwaihir 和 Beorn 免受隐藏在横幅、writeup 和 DNS 响应中的 payload 的攻击。instruction hierarchy、Spotlighting、StruQ 和我们的 Sentinel。

may. 15, 2026 mins
ai-ml

面向攻击型代理的 Constitutional AI

我们如何将 Constitutional AI 和 RLAIF 应用于 Gandalf CLI,使我们的攻击型代理能够自行拒绝超出范围的操作,而不必依赖手动的提示词工程。

may. 15, 2026 mins