
TRIADAI智能体新型安全框架登场TRIAD是为AI智能体设计的一种新型安全框架通过三类决策继续、更新、拒绝和自然语言反馈帮助Agent在被误导时修正计划完成用户真实需求。相比传统方法TRIAD更智能能区分任务污染程度既防风险又不误任务。AI智能体安全风险凸显随着AI智能体Agent逐渐走向能够调用搜索、邮件、文件、数据库和代码执行等外部工具的自动化系统其能力边界不断扩展安全风险也随之放大。一段看似普通的网页内容、一封邮件、一条工具返回结果都可能成为影响Agent决策的外部风险源诱导其偏离用户原本的任务。现有护栏模型的局限现有护栏模型guardrail通常只能在执行前判断「安全」或「不安全」但真实Agent场景中的风险往往并不是整个任务都有害而是正常任务中混入了不可信指令。直接放行可能导致攻击成功直接拒绝又会牺牲用户的正常需求。墨尔本大学团队开源TRIAD为此墨尔本大学团队开源TRIADTripartite Response for Iterative Agent Guardrailing一个面向LLM Agent的反馈驱动护栏框架。它不再只做二分类安全判断而是将决策扩展为Proceed、Update和Refuse三类——安全时继续执行完全有害时拒绝对于被提示注入污染但仍可修复的任务则通过自然语言反馈引导Agent修改行动计划回到用户的原始目标。研究背景LLM Agent安全风险扩大随着大语言模型智能体LLM Agent从「回答问题」走向「调用工具、执行任务」它们正在被应用到邮件处理、网页浏览、文件管理、数据库查询、代码执行等更加复杂的场景中。相比传统聊天模型Agent不仅会生成文本还会根据上下文制定计划、选择工具并在多轮交互中根据工具返回结果继续行动。这种能力让LLM Agent更接近真实的自动化助手但也显著扩大了安全风险。这一问题在提示注入攻击Prompt Injection Attack中尤为突出。真实场景下风险往往不是来自一个完全有害的用户请求而是来自「 正常任务中混入了不可信指令」 。现有Agent护栏的不足现有Agent护栏通常会在执行前检查输入、行动计划或工具调用并给出允许、拒绝、风险类别或解释性理由。然而这类方法往往更擅长「发现风险」却不一定能有效指导Agent接下来如何行动。对于被污染但仍可修复的任务简单拒绝虽然可以阻断攻击却会牺牲用户的正常需求直接放行则可能让Agent执行攻击者指定的工具调用。换言之Agent安全不仅需要风险检测还需要在检测到风险后对行动计划进行修复。TRIAD反馈驱动的护栏框架本文作者团队提出了TRIADTripartite Response for Iterative Agent Guardrailing 一个面向LLM Agent的反馈驱动护栏框架。TRIAD将传统的二元护栏决策扩展为三类 Proceed 、 Update 和 Refuse 。当行动计划安全时Agent可以继续执行当用户请求本身有害时Agent应拒绝完成而当任务中存在提示注入或不可信指令、但原始用户目标仍然合理时TRIAD会生成自然语言反馈Natural-Language Feedback引导Agent修改计划、避开恶意部分并回到用户原本的任务目标。TRIAD核心思路从「二分类裁判」到「反馈提供者」传统Agent护栏通常采用「检测 — 拦截」的思路在工具执行前判断当前行动是否安全如果发现风险就阻止Agent继续执行。这种方式对于完全有害的请求是有效的但在提示注入场景下会遇到困难。因为很多任务并不是整体有害而是正常任务中夹杂了恶意指令。此时简单拒绝会让Agent放弃原本可以完成的正常任务而简单放行又可能导致攻击成功。TRIAD的核心思路是把护栏从一个「二分类裁判」变成一个「反馈提供者」。TRIAD闭环机制引导Agent回到正确方向Agent在每一步工具调用前都会先生成当前的行动计划和拟调用工具。随后Tri-Guard会在工具真正执行前检查这一计划并根据当前上下文、历史交互、可用工具和拟执行动作给出自然语言反馈以及三类决策Proceed、Update和Refuse 。其中 Proceed 表示当前计划安全且与用户目标一致Agent可以继续执行工具 Refuse表示用户请求本身有害或当前任务无法通过修改计划安全完成Agent应直接拒绝 Update则用于处理最关键的中间情况当前计划受到了提示注入或不可信内容影响但用户原始目标仍然合理。此时TRIAD不会直接终止任务而是将Tri-Guard生成的自然语言反馈写回Agent的临时上下文明确指出风险来源、任务偏离点和当前工具调用的问题从而引导下游Agent重新规划。这一设计形成了一个闭环使Agent在面对部分污染的任务时有机会「回到正确方向」。Tri-Guard能力构建知识蒸馏与决策区分为了让Tri-Guard具备这种判断和反馈能力研究者构建了一个包含多轮Agent轨迹的数据集并通过知识蒸馏knowledge distillation利用教师模型teacher model为轨迹生成结构化自然语言反馈和三类决策标签。训练后的Tri-Guard不仅需要识别当前行动是否存在风险还要区分三种情况正常任务应继续执行直接有害任务应拒绝而被提示注入污染但仍可修复的任务应进入更新流程。实验结果TRIAD显著降低攻击成功率在ASB和AgentHarm两个benchmark上进行评测。其中ASB用于测试Agent在直接提示注入DPI和间接提示注入IPI下是否会被攻击者带偏AgentHarm则用于评估Agent面对直接有害任务时的拒绝能力以及对正常任务的保留能力。实验覆盖了四个Agent backbone包括两个开源模型Qwen3 - 32B、Kimi - 2.5以及两个前沿闭源模型GPT - 5.1和Gemini - 2.5 - Pro结果显示TRIAD Tri-Guard在不同Agent上都能显著降低攻击成功率ASR同时保留更高的正常任务完成率TSR。相比没有防护的ReActTRIAD Tri-Guard将平均ASR从74.45%降至10.42%同时将平均TSR从28.45%提升到68.60%。不同护栏模型对比Tri-Guard更擅处理可修复任务一个重要现象是低ASR并不一定代表更好的护栏。ToolSafe和TRIAD TS-Guard在部分设置下也能压低ASR但往往伴随很高的拒绝率和较低的TSR说明它们更多是通过「拦截或放弃执行」来降低攻击成功率。相比之下TRIAD Tri-Guard在ASB - DPI和ASB - IPI上普遍取得更高的TSR说明它更擅长处理「任务部分被污染但仍可修复」的场景。框架与护栏模型影响区分Tri-Guard决策学习效果佳为了区分「框架本身」和「护栏模型能力」的影响研究者进一步在TRIAD框架中替换不同guardrail模型。结果显示直接接入现有guardrail并不足以获得理想的安全 - 效用平衡。许多模型可以检测风险并降低ASR但它们倾向于把部分污染的任务整体视为危险任务从而导致高拒绝率和低任务完成率。以TS-Guard为例它在ASB - DPI和ASB - IPI上都能明显压低ASR但拒绝率分别达到88.80%和94.63%对应的TSR只有1.33%和0.59%。相比之下Tri-Guard的ASR略高但在DPI和IPI下分别达到60.83%和61.59%的TSR同时拒绝率明显更低。这说明TRIAD的效果并不只是来自「多加一个护栏」而是来自Tri-Guard对Proceed、Update、Refuse三类决策的学习。训练效果说明Tri-Guard更符合核心目标表3进一步说明了trajectory - feedback training的作用。未经训练的Qwen3.5 - 9B base model本身已经具有较强的安全倾向因此可以把ASR压得很低但它的问题是过于保守经常把可修复的提示注入任务直接判为拒绝导致正常任务无法完成。经过训练后的Tri-Guard则把决策边界从「发现风险就拒绝」调整为「能修复则更新」。虽然Tri-Guard的平均ASR比base model略高但它在ASB - DPI上将TSR从26.30%提升到64.52%在ASB - IPI上将TSR从26.53%提升到72.68%同时拒绝率也明显下降。这说明训练后的Tri-Guard更符合TRIAD的核心目标不是最大化拒绝而是在降低攻击成功率的同时尽可能保留用户的正常任务。决策分布变化Tri-Guard更灵活饼图从决策分布层面解释了对于正常行动计划Tri-Guard仍然能够保持较高的Proceed比例说明它不会对正常任务过度干预对于提示注入污染的行动计划Tri-Guard明显更多地选择Update而不是像base model那样直接Refuse对于直接有害任务Tri-Guard仍然保留拒绝能力。这正是TRIAD相比传统护栏的关键变化它不是把所有风险都导向同一个「拒绝」出口而是根据任务是否仍可修复选择继续执行、更新计划或拒绝执行。换句话说Tri-Guard的训练让护栏从「保守拦截器」变成了「反馈驱动的规划调节器」。总结与展望TRIAD提供新参考TRIAD通过Proceed、Update和Refuse三类决策以及自然语言反馈驱动的闭环修正机制为LLM Agent安全提供了一种新的护栏思路。它不再停留在简单的「安全/ 不安全」判断而是进一步关注在检测到风险后如何引导Agent识别计划中的偏离点并尽可能保留用户的原始任务目标。在提示注入和有害任务场景下TRIAD展示了更平衡的安全与效用表现。尤其是在正常任务被恶意内容部分污染时它通过Update决策引导Agent重新规划实现了从风险分类到行动计划修复的转变。那么如何进一步完善TRIAD使其在更多复杂场景中发挥更好的作用呢这值得人们深入思考。作者简介第一作者Yuhao Sun为墨尔本大学计算机与信息系统学院博士生一年级研究方向为Trustworthy AI与Agent Safety。本文主要合作者为墨尔本大学博士生Jiacheng Zhang与清华大学博士生Zhexin Zhang。并由A/Prof. Xingliang Yuan, Dr. Feng Liu与Dr. Shaanan Cohney共同指导完成。