Tag

lang-ja

red-team

Agentic システムにおける prompt injection 防御

banner、writeup、DNS 応答に隠された payload から Gandalf、Gwaihir、Beorn をどのように守るか。instruction hierarchy、Spotlighting、StruQ、そして我々の Sentinel。

may. 15, 2026 mins
ai-ml

攻撃エージェントのための Constitutional AI

手動のプロンプトエンジニアリングに頼ることなく、私たちの攻撃エージェントが自らスコープ外のアクションを拒否できるよう、Gandalf CLI に Constitutional AI と RLAIF をどのように適用したか。

may. 15, 2026 mins