Agentic システムにおける prompt injection 防御
banner、writeup、DNS 応答に隠された payload から Gandalf、Gwaihir、Beorn をどのように守るか。instruction hierarchy、Spotlighting、StruQ、そして我々の Sentinel。
banner、writeup、DNS 応答に隠された payload から Gandalf、Gwaihir、Beorn をどのように守るか。instruction hierarchy、Spotlighting、StruQ、そして我々の Sentinel。
手動のプロンプトエンジニアリングに頼ることなく、私たちの攻撃エージェントが自らスコープ外のアクションを拒否できるよう、Gandalf CLI に Constitutional AI と RLAIF をどのように適用したか。