当 Agent 开始“做事”:Anthropic 零信任白皮书释放了什么信号? 2026 年 5 月 27 日Anthropic 发布了面向企业 AI Agent 部署的安全白皮书——《Zero Trust for AI Agents》。这份 34 页的文件罕见地没有鼓吹新技术而是集中讨论一个长期被忽视的问题当 AI Agent 拥有身份、工具、权限和自主执行能力之后企业安全架构该怎么重设这个问题的紧迫性在今年四五月集中爆发。先是攻击者利用 LLM Agent 从暴露的服务器入口入手不到两分钟便窃走内部数据库接着 OWASP 报告指出 2026 年前四个月的 AI 安全事件已全面转向实战利用五眼联盟和国内主管部门相继发布 Agent 安全指南与监管文件。五月几乎成了“Agent 安全月”。Anthropic 这份白皮书踩在这个节点上时机精准。但它到底说了什么又没说什么值得细聊。一、为什么是现在因为“补丁窗口”被压缩殆尽过去二十年网络安全的节奏大致是厂商发现漏洞→发布补丁→攻击者花几周研究利用方法。这段“时间差”是防守方赖以生存的缓冲。AI 正把这套节奏打碎。前沿模型能在几小时内、花几美元把一个漏洞变成可用武器。更糟的是攻击者甚至可以等待补丁发布然后逆向分析补丁反推出漏洞——时间差几乎消失。Anthropic 直言模型已经能发现传统工具和人工多年都没发现的严重漏洞。今年 4 月披露的 Claude 漏洞报告佐证了这一点模型对严重性评估与专家判断的一致性达到近九成。这对部署 Agent 的组织是双重打击一是基础暴露在 AI 加速的攻击前二是 Agent 自身的自主性使得一个被操纵的智能体能以机器速度造成破坏。二、零信任不是新词但对 Agent 来说是必要解零信任不是什么新概念它的核心简单粗暴什么都不信任一切都要验证假设入侵已经发生。但把它套到 AI Agent 身上就出问题了。传统零信任是为人类用户设计的——人会登录、退出、输密码、触发 MFA。而 Agent 以机器速度运行跨系统链式调用工具持有长期记忆。一个权限配置错误的 Agent 可能在一秒内向数据库发起数千次请求。传统 RBAC 和边界防护在这种速度差面前几乎没有还手之力。Anthropic 的观点很明确Agent 不是聊天机器人而是一个能理解目标、调用工具、访问数据、执行动作的自治系统。传统访问控制很难阻止 Agent 滥用“本来就合法”的权限因此必须从一开始就按“默认不可信、持续验证、假设已被攻破”来设计。这不是新瓶装旧酒而是把零信任原则延伸到一种全新的主体上。三、白皮书的干货五大风险、三层框架、八步流程白皮书的优点在于实操性。它系统梳理了当前 Agent 面临的核心威胁提示注入与指令操纵直接提示注入还能理解更危险的是间接注入——攻击者把恶意指令藏在网页、邮件或知识库里Agent 在处理外部数据时误以为是应执行的任务。工具和资源劫持攻击者可以修改工具定义诱导 Agent 执行意外操作甚至反复调用高成本 API 造成费用暴涨。身份与权限滥用高权限 Agent 委托给低权限子 Agent 时权限未相应缩小或者攻击者从低权限 Agent 切入逐步向上操纵。记忆与上下文投毒被污染的长期记忆会影响后续所有会话而非仅当前对话。供应链风险预训练模型、微调数据、外部工具、依赖包都可能被植入后门。针对这些风险白皮书给出了三个能力层级基础层隔离与最小权限。Agent 拿不到不该拿的凭证调不了不该调的工具。企业级跨会话审计追踪、记忆沙箱、MCP 元数据验证。安全团队能知道 Agent 何时、做了什么、谁授权的。高级级实时异常检测、跨 Agent 策略执行、自动化响应编排。系统能在行为偏离预期时自动介入。以及八阶段部署工作流从威胁建模到应急响应。对准备落地 Agent 的企业来说至少有了可以抄的作业。四、两个值得记住的新概念白皮书里最值得琢磨的是两个概念爆炸半径和最小代理权。爆炸半径衡量出问题时的潜在损害范围——只读单个数据库的 Agent 半径很小有管理员权限的半径巨大。当防守方假设 Agent 一定会被攻破时真正要控制的不再是“能不能进来”而是“进来之后能搞多大破坏”。最小代理权是把最小权限原则延伸到了 Agent 场景限制每个 Agent 有什么工具、能做什么、多频繁、在哪里。数据库工具只拿到只读查询权限邮件摘要工具没有发送和删除权限。这两个概念勾勒出一个有趣的防御逻辑与其在 Agent 的“入口”上花大力气设防不如在 Agent 的“能力”上做减法。这是一个从“防御入侵”转向“控制损害”的思路转变。白皮书还提出了一个检验标准控制措施是让攻击变得不可能还是只是让攻击变得更麻烦那些“价值来自摩擦而非硬性屏障”的措施——比如额外跳板、速率限制、短信 MFA——在面对能大规模梳理麻烦步骤的 AI 时会大幅失效。真正顶用的措施有共同模式硬件绑定的凭证、会过期的 token、密码学身份、以及根本不存在的网络路径。拿不准时优先选择移除能力的控制而非限流。五、现实不会等你准备好白皮书之所以现在发是因为现实已经替它敲了警钟。2026 年 5 月的一个事件暴露在公网的 marimo notebook 被利用攻击者用 LLM Agent 驱动整个攻击链——从获取 shell 到读取云私钥再到多会话并行窃取数据库全程不到一小时每一步都动态生成。报告评价很犀利“不是 AI 取代攻击者而是攻击者用 AI 取代了他们的脚本”。另一起事件中Anthropic 自己报告一个境外组织用 Claude Code 自主设计了针对 30 家机构的攻击链覆盖财富 500 强、金融机构和政府AI 完成了 80%-90% 的攻击工作速度是人类无法达到的。参议员称这是“第一次大规模以几乎无人干预方式执行的网络攻击”。还有上千个恶意技能包被植入市场大量提示注入漏洞可以直接操纵企业内部 Agent。这三件事说明Agent 安全不再是实验室里的假想敌而是每天正在发生的现实。六、白皮书没说的是什么当然这份白皮书也有值得商榷的地方。执行难度被低估了。“给每个 Agent 唯一身份、强制最小权限、实时监控”——说起来简单做起来呢就在白皮书发布前几天Anthropic 的工程博客坦诚地说了“不部署”的成本已经高到让风险收益计算强烈倾向于采用工程问题变成了“如何给爆炸半径设置上限”。这其实暴露了行业困境前沿 AI 公司自己也在安全控制和生产力之间艰难取舍。理想化的“从第一天就按零信任原则设计”连写这份白皮书的公司也是通过一次次教训才走到今天的。第三方生态的安全几乎完全依赖外部。MCP 工具的供应链风险被反复提及但控制落地往往不在企业手中。企业可以把自己的 Agent 身份管理做到极致但如果下游一个 MCP 服务器被攻破上游控制可能被轻松绕过。目前对开源组件、模型权重、第三方 API 的供应链安全管理几乎没有标准化手段。最小代理权的实践缺口。一个任务到底需要多少能力很难事先精确界定。Agent 的任务理解是动态的权限太死完不成任务太松又让“最小代理权”成了一纸空文。七、写在最后从去年到今年几乎所有安全会议都在说一件事非人类身份正在成为新的攻击面。大量调查显示绝大多数 AI Agent 是在未经安全团队批准的情况下部署的。这几十个百分点的治理缺口意味着很多企业已经把 Agent 放进生产环境而安全团队根本不知情。Anthropic 这份白皮书的真正价值不在于它给出了完美答案——事实上它没有。它的价值在于一家前沿 AI 厂商正式承认了一个让很多安全团队焦虑但不敢明说的事实Agent 安全不是可以延后解决的问题它和模型本身的性能提升一样紧迫。而零信任作为一个已经成熟的框架至少提供了一个可以立即可用的思维起点。当然光靠一份白皮书解决不了结构性问题。企业需要的不只是指导原则还有能嵌入现有安全体系的工具和标准Agent 身份的统一注册、MCP 的网关化管控、实时行为监控的大规模落地。回到开头的问题这份白皮书释放了什么信号赛柏特的看法是它释放的信号不是“我们有答案了”而是“我们不能再假装没问题了”。对于每一个正在把 AI Agent 放进生产环境的人来说真正的挑战才刚刚开始——而且很可能比想象的要麻烦得多。本文基于Anthropic公开白皮书《Zero Trust for AI Agents》及相关行业研究报告撰写的分析评论。白皮书原文可在claude.com/blog/zero-trust-for-ai-agents查阅。