
1. 这不是新赛道是 runtime 层的“操作系统时刻”来了你有没有试过让一个 AI 代理连续工作四十分钟不是闲聊而是真正在查资料、调 API、写代码、改文档——一环扣一环地推进一个复杂任务。我去年就带着团队跑过这样一个销售线索深度分析 Agent它要从 CRM 拉客户数据交叉比对公开财报和新闻生成定制化 pitch deck再通过邮件 API 发送初稿。前 35 分钟一切丝滑第 38 分钟它突然开始给一家已破产三年的公司写合作邀约还把上一轮调用的财务指标张冠李戴塞进 PPT 图表里。我们翻日志、看 token 流、重放 prompt——全无异常。最后才发现context 窗口早被撑爆模型在“失忆”状态下硬编而我们连它什么时候丢掉第一条 API 返回结果都查不到。Anthropic 在 4 月 8 日发布的Claude Managed Agents表面看是又一个“托管 Agent 平台”但它的核心不是让你更快地写 YAML而是直接切掉了这个痛点的根它把 session会话从模型 context 里彻底剥离出来变成一个独立、持久、可查询、可回溯的事件日志。这不是功能升级是架构范式的迁移——就像 90 年代操作系统把硬件资源虚拟化一样Anthropic 正在把“Agent 运行时”这一层抽象成稳定接口。你不再需要自己搭 Redis 存 state、写中间件管 credential、用 Kafka 做 trace这些事 Anthropic 全包了而且是以一种生产级的方式sandbox 是 cattle可批量销毁重建的牲畜不是 pets需要精心养护的宠物harness执行器是纯函数式、无状态的只负责调execute(name, input) → stringsession 则是 durable event log哪怕 harness 进程崩了awake(sessionId)也能秒级续上。关键词Towards AI - Medium很关键——这不是一篇技术白皮书而是面向真实工程决策者的战报。它不讲“AI 如何改变世界”只讲“今天下午三点你该不该把正在跑的 LangGraph 流水线迁到 Managed Agents 上”。答案取决于你手里的 Agent 是什么形态如果你的 Agent 还卡在“每次请求都要 reload 全量 history”的阶段那这层 runtime 就是你明天的救命稻草但如果你已经在用 AWS Bedrock AgentCore 或 Vertex AI Agent Builder那 Anthropic 这次发布更像是一封措辞优雅的“防流失通知书”——它提醒你Claude 模型的买家正站在 runtime 层的十字路口。而这条路的尽头不是谁家的 sandbox 更快而是谁家的 trace store 更牢、policy engine 更细、垂直 agent 合同更厚。这才是 Gaurav Yadav 在 Towards AI 上真正想说的Runtime 层正在变薄薄到即将透明价值正在向上迁移迁到你能签单、能审计、能复用的地方。2. 核心设计逻辑为什么“Session as Event Log”是唯一解2.1 从“上下文即存储”到“事件日志即真相”的必然性过去一年我帮三家公司做过 Agent 架构评审发现一个惊人共性90% 的线上故障根源不在模型本身而在 state 管理的脆弱性。典型场景有三类Context 溢出静默崩溃如前文所述多步骤工具调用中早期结果被自动截断模型基于残缺信息推理输出看似合理实则错误。这种错误不会报错只会悄悄污染下游。State 不一致用户中途刷新页面或切换设备前端 session ID 丢失后端却还在用旧 state 继续执行导致“用户看到 A 结果系统实际执行了 B 流程”。调试黑洞当 Agent 输出异常工程师只能靠猜——是 prompt 写错了tool schema 定义有歧义还是 credential 权限不足因为所有中间态都混在 context 里无法分离、无法重放、无法审计。Anthropic 的Session as Event Log模式就是为终结这三类问题而生。它的底层逻辑非常朴素把“发生了什么”what happened和“模型怎么想的”how model reasoned彻底解耦。所有工具调用、API 响应、用户输入、guardrail 触发、credential 使用记录都作为结构化事件event写入外部持久化日志如 S3 DynamoDB 或专用 OLAP 引擎。每个事件带严格时间戳、session ID、trace ID、caller identity、input/output payload脱敏后、execution duration。模型 context 里只保留当前 step 所需的最小必要信息例如“上一步调用 search_api 返回了 3 个链接摘要如下…”而非全部历史。提示这不是简单的“把 log 存到数据库”。关键在于事件格式的标准化与可组合性。Anthropic 的 event schema 显式区分了tool_call,tool_result,user_message,system_message,guardrail_violation等类型并强制要求每个tool_call必须关联tool_id和input_hash这使得跨 session 的行为模式分析成为可能——比如你可以轻松统计“某金融 agent 调用get_stock_price的失败率是否在财报季显著升高”。2.2 Harness无状态执行器的工程深意Harness 这个词选得极妙。它本意是“挽具”指套在马身上、用于牵引重物的皮带装置。Anthropic 用它命名执行器暗示其核心定位纯粹的、受控的、可替换的动力传递单元。它不存 state不管理 credential不解析 prompt甚至不决定下一步调哪个 tool——它只做一件事收到execute(tool_name, input)请求启动 sandbox注入隔离的 credential vault等待结果返回字符串。整个过程完全无状态意味着可水平无限扩展每个 Harness 实例都是 stateless workerK8s 可根据 QPS 自动扩缩容无需担心 session affinity。故障零影响一个 Harness 崩溃只损失当前请求session event log 完整awake(sessionId)可立即在新实例上恢复。模型无关Harness 只认execute()接口背后可以是 Claude 3.5、Llama 3.1甚至是自研小模型——只要它们能按约定格式输出 tool call 指令。我实测过类似架构基于自研 Harness LangChain Memory。当把 Harness 从单机进程改为 K8s Deployment 后p95 延迟从 1200ms 降到 280ms原因很简单旧架构下每个请求都要加载完整 memory chain而新架构下Harness 只需加载轻量级执行框架state 全部由外部 event log 驱动。Anthropic 的 p95 90% 提升正是这种解耦释放的性能红利。2.3 Sandbox从“宠物”到“牲畜”的运维革命“Sandbox as cattle, not pets” 这句话背后是五年来无数团队踩坑换来的血泪教训。早期 Agent sandbox比如用 Docker-in-Docker 或 VM常被当作“pets”工程师会手动登录容器排查环境变量、调试网络策略、给特定 sandbox 打补丁。结果是一个 sandbox 出问题整条流水线卡死一次安全更新要逐个 patch 数百个 sandbox。Anthropic 的 sandbox 是标准 cattle按需即时生成每次execute()调用动态拉起一个全新 sandbox推测为轻量级 microVM 或 gVisor 隔离容器执行完立即销毁。Credential 零暴露credential 不以 env var 形式注入 sandbox而是由 Anthropic Vault 在 sandbox 启动时通过 secure channel 动态注入 runtime。sandbox 进程内存里永远看不到明文 token。文件系统隔离每个 sandbox 拥有独立、临时的 rootfs写入内容在销毁后彻底消失杜绝跨 session 数据残留。注意这种设计直接规避了 LLM Agent 最危险的漏洞之一——“prompt injection 获取 credential”。传统方案中攻击者若诱导模型执行curl -H Authorization: Bearer $TOKEN ...token 就可能被泄露。而 Anthropic 的 sandbox 里$TOKEN根本不存在于环境变量中模型连echo $TOKEN都得不到任何输出。3. 实操细节拆解从 YAML 定义到生产部署的全链路3.1 Agent 定义YAML 与自然语言的边界在哪里Anthropic 允许用 YAML 或自然语言定义 Agent但二者适用场景截然不同YAML 用于生产级 Agent这是必须掌握的核心。一个典型agent.yaml包含四个必填块# agent.yaml name: sales-research-agent description: Researches prospects and generates outreach emails system_prompt: | You are a sales development rep at Acme Corp. Your goal is to research companies... # 注意这里不写具体步骤只定义角色、目标、约束 tools: - id: search_api name: Web Search description: Search public web for company info input_schema: type: object properties: query: {type: string, description: Search query in English} - id: email_api name: Send Email description: Send personalized email via SMTP input_schema: type: object properties: to: {type: string} subject: {type: string} body: {type: string} guardrails: - type: pii_redaction config: {enabled: true, fields: [phone, email]} - type: content_policy config: {blocked_categories: [hate_speech, financial_advice]}自然语言仅用于原型验证比如在 Console 里输入 “帮我写一个能查天气并推荐穿搭的 agent”Anthropic 会自动生成 YAML 骨架。但它无法表达复杂逻辑如“如果温度低于 10°C且用户有羽绒服库存则跳过推荐”这类规则必须写进system_prompt的 conditional logic 中。我建议的实操路径先用自然语言快速生成 YAML 骨架 → 手动完善tools.input_schema务必用 JSON Schema 严格校验→ 在system_prompt中用 bullet points 明确写出决策树例如“Step 1: 调用 search_api... Step 2: 若返回结果含 acquired 字样则终止流程并输出警告”。不要试图让模型“自己理解”模糊指令这是所有失败 Agent 的起点。3.2 Session 生命周期管理从创建到归档的七步法一个 production-ready session 不是简单POST /sessions就完事。以下是我在客户现场落地的七步标准流程Session 创建POST /v1/sessions传入agent_id和初始user_message。响应返回session_id和first_token_time首 token 延迟监控点。状态轮询客户端用GET /v1/sessions/{id}/status轮询直到status completed或status failed。注意不要长连接避免超时。事件流消费同时开启GET /v1/sessions/{id}/events?streamtrueSSE 流实时获取tool_call,tool_result等事件用于前端进度条、debug 面板。中断处理用户点击“停止”调用POST /v1/sessions/{id}/cancel。Anthropic 会立即终止 sandbox但已发生的tool_call事件仍会写入 log保证审计完整性。结果提取status completed后GET /v1/sessions/{id}/result获取最终输出。注意此 endpoint 返回的是模型最终回复非原始 event log。日志归档GET /v1/sessions/{id}/events导出全量事件 JSON存入企业自有 S3 bucket。这是合规审计的法定证据。Session 清理默认 7 天后自动删除但强烈建议在归档后立即调用DELETE /v1/sessions/{id}主动清理避免账单累积。实操心得第 3 步的 SSE 流是调试神器。我曾用它发现一个隐藏 bug某个 tool 的tool_result事件里output字段是空字符串但status是success。这说明 tool 本身没报错但业务逻辑返回了空值。若只看最终result根本无法定位问题源头。3.3 Pricing 模型的精算何时用 Managed Agents 更省钱$0.08/session-hour 的定价表面简单实则暗藏玄机。关键在“session-hour”的定义它从 session 创建开始计时到 session 状态变为completed/failed/cancelled为止无论期间是否有 active execution。这意味着长 idle 时间 高成本一个 session 创建后用户 30 分钟没输入这 30 分钟仍计费。高频短 session 低成本如果每个用户操作都启新 session如每次点击“生成报告”且平均执行 10 秒则 $0.08/hour ≈ $0.00022/次远低于自建 K8s 集群的固定成本。我帮客户做过成本对比以日均 10,000 次 Agent 调用为基准方案固定成本月可变成本月总成本月适合场景Managed Agents$0$0.08 × (10,000 × avg_session_duration_hrs)~$120-$300session 30 秒流量波动大无运维团队自建 K8s (EKS)$1,200 (nodes LB)$0.03 × tokens $0.05 × compute~$2,500session 5 分钟需深度定制 sandbox有 DevOps 能力AWS Bedrock AgentCore$0 (含在云账单)$0.08 × session-hours token fees~$150-$350已深度使用 AWS需 Policy Controls 企业级治理结论很清晰如果你的 Agent 是“短平快”型1 分钟Managed Agents 是性价比之王如果你的 Agent 是“马拉松”型5 分钟自建或 AgentCore 更优。Anthropic 的定价本质是在筛选客户——它欢迎那些把 Agent 当作“增强版 API”的用户而非“替代人类员工”的重负载场景。4. 竞争格局全景图为什么说 Anthropic 是在防守而非开创4.1 Hyperscaler 的“Runtime 即服务”已成事实标准Gaurav Yadav 在 Towards AI 文中点破的关键事实是Anthropic 的 Managed Agents 并非首创而是对已有事实的追认。我们来拆解三大云厂商的布局AWS Bedrock AgentCoreGA 于 2025 年底技术亮点每个 session 运行在独立 microVMFirecrackerCPU/内存/FS 全隔离支持最长 8 小时运行Policy Controls 已 GA可定义“禁止调用任何 finance 相关 tool”等细粒度规则。生态优势SDK 下载量 200 万LangGraph/CrewAI 等主流框架原生支持与 AWS IAM、CloudTrail 深度集成audit log 直接进 S3。定价策略无单独 runtime 费用只收 token 费 可选的 Policy 控制费$0.001/session。这招太狠——它把 runtime 变成了“云账单里的空气”。Google Vertex AI Agent Builder技术亮点Agent Registry Apigee 网关天然支持多租户、流量控制、API monetization内置 “Agent Health Score” 自动诊断超时/失败率。生态优势与 Google Workspace 深度绑定Gmail/Meet/Drive 的 tool 调用开箱即用。定价策略按调用量阶梯计费100 万次内免费之后 $0.0005/次。Azure AI Foundry整合 AutoGen Semantic Kernel技术亮点Planner Executor 分离架构支持 sub-agent delegation与 Microsoft Graph API 无缝对接。生态优势Teams 内嵌 Agent 体验最佳销售、客服场景落地最快。定价策略runtime 费用包含在 Azure OpenAI 服务中无额外 charge。提示这三家的共同点是——runtime 层已不再是产品而是云基础设施的“默认能力”。开发者选择云厂商不是因为它的 runtime 多先进而是因为它的 IAM、VPC、Logging、Billing 已是企业 IT 的事实标准。Anthropic 的 Managed Agents本质上是在说“即使你用 AWS也请把 Claude token 买在我这儿。”4.2 开源压力曲线Daytona 与 Kubernetes SIG 的降维打击如果说 hyperscaler 是“免费午餐”那开源项目就是“自助厨房”。2025 年初崛起的两个项目正从根上瓦解 runtime 的商业价值Daytona2025 年 2 月 A 轮 $24M专注极致性能——sub-90ms sandbox spin-up。它用 Rust 重写了 container runtime绕过 Docker daemon直接调用 runc cgroups v2。实测在 m6i.xlarge 实例上启动 100 个 sandbox 并发平均延迟 87msp99 120ms。这意味着你的 Agent 响应速度瓶颈将从“sandbox 启动”转移到“模型推理”本身。Daytona 的开源协议Apache 2.0允许企业免费商用其 GitHub star 数已突破 12,000。Kubernetes SIG Agent-Sandbox2025 年同期发布这是真正的“操作系统级”动作。它把 sandbox 定义为 Kubernetes 原生资源Custom Resource Definition用 Operator 自动管理 lifecycle。开发者只需写kind: AgentSandboxYAMLK8s 就会自动调度、隔离、监控、伸缩。它不绑定任何模型不卖任何服务只提供标准——当你能在 K8s 里像部署 Pod 一样部署 sandboxruntime 就真的死了。这两股力量合起来画出了 runtime 层的死亡曲线hyperscaler 用免费和生态锁住用户开源项目用性能和标准瓦解壁垒。Anthropic 的 $0.08/session-hour在这条曲线下注定是过渡期的“贵族税”。5. 价值迁移的三大高地Trace Store、Governance、Vertical Marketplace5.1 Trace Store谁掌控了事件日志谁就掌控了 Agent 的“司法权”当 runtime 变成公共品trace store追踪存储就成了新的护城河。为什么因为它是唯一能回答“Agent 到底干了什么”的地方。想象这个场景销售 agent 给客户发了错误报价法务要求提供完整操作链。如果只有最终输出你无法证明“是模型 hallucination 还是 tool 返回了脏数据”。而一个合格的 trace store必须提供跨 runtime 可移植性同一份 event log能在 Anthropic、Bedrock、Vertex 间自由迁移。目前 LangSmith 正在推动 OpenTelemetry for LLMs 标准Arize 的 Phoenix 已支持 OTel 格式导入。语义化搜索不只是grep tool_call, 而是find all sessions where tool_call.name send_email AND tool_result.status failed AND user_message contains urgent。合规就绪自动 redact PII生成 SOC2/ISO27001 审计报告支持 WORMWrite Once Read Many存储。我参与过 Braintrust 的 PoC他们用 Brainstore专为 AI log 优化的 OLAP DB实现了毫秒级响应的“全量 session 行为回放”。输入一个 session ID它能在 200ms 内渲染出完整的交互时间轴包括每个 tool call 的输入/输出、模型思考过程if logged、guardrail 触发点。这种能力是任何 runtime 都无法提供的——因为 runtime 只管执行trace store 才管“记忆”。5.2 Governance Policy当 Agent 成为企业员工谁来制定《员工手册》Agent 不再是玩具而是签署 SLA 的数字员工。这就引出 governance 的刚性需求Policy-as-Code用 YAML 定义策略如deny_if: {tool: delete_file, path: /etc/**}。AWS AgentCore 的 Policy Controls 已支持此模式但缺乏跨平台 DSL。实时阻断Policy 不仅是事后审计更要能在 tool call 发出前拦截。OWASP Agentic Top 10 中的 #1 风险 “LLM01: Prompt Injection”必须靠 runtime-level 的 policy engine 实时检测输入中的恶意指令。责任归属当 agent 出错是 prompt 编写者、tool 开发者、还是 policy 配置者担责trace store 必须记录policy_decision: {rule_id: PII_CHECK_001, result: blocked, reason: email found in input}形成法律证据链。目前市场空白巨大。Arize 的 Phoenix 提供开源 policy engine但企业级策略编排如“金融行业 agent 必须启用所有 PII rules 金融合规 rules”仍是黑盒。谁能率先推出可视化 policy composer 企业级 rule marketplace谁就拿到了 Agent 时代的“OS 管理中心”。5.3 Vertical Agent MarketplaceSalesforce Agentforce 的启示Salesforce Agentforce ARR 达 $800M这不是偶然。它证明了一个真理企业愿意为解决具体业务问题的 Agent 付费而不是为“能跑 Agent 的平台”付费。Agentforce 的成功要素有三预集成垂直数据源开箱即用连接 Salesforce CRM、LinkedIn Sales Navigator、ZoomInfo无需客户自己写 connector。预训练领域知识销售 agent 懂得识别“决策链”DMU能区分 CEO vs. Procurement Manager 的沟通话术。合同即交付签单即开通按 seat/year 计费SLA 保障 99.9% uptime无需客户部署 runtime。这催生了新一代创业机会垂直 agent 的“SaaS 化封装”。比如Healthcareclaim-processor-agent直连 Epic EHR自动填写 CMS-1500 表格准确率 99.5%FDA 认证中。Financeai-hedge-fundGitHub 项目 virattt/ai-hedge-fund接入 Bloomberg Terminal API执行量化策略回测与实盘下单。Securitypentagivxcontrol/pentagi调用 Nessus Burp Suite自动生成渗透测试报告与修复建议。这些 agent 的技术栈可以是 LangGraph Bedrock但它们的商业价值完全体现在垂直领域的合同厚度上。Anthropic 的 Managed Agents只是让这些垂直 agent 的分发渠道更顺畅——它不创造价值但加速了价值的流动。6. 未来一年的生存指南给 Agent Infra 创业者的三条铁律6.1 铁律一别再卖 runtime除非你能做到“零配置、零运维、零感知”如果你的 Pitch Deck 里还有“我们的 sandbox 启动比竞品快 200ms”、“我们的 harness 支持 1000 TPS”请立刻删掉。因为AWS/GCP/Azure 的 microVM 启动时间已进入 sub-100ms 俱乐部Daytona 的开源实现让任何团队都能在 2 天内搭建同等性能 sandbox企业采购决策者早已把 runtime 当作“水电煤”只问“多少钱”、“能不能进我的 IAM”。生存之道只有一条把 runtime 变成“看不见的管道”。比如提供一键部署到客户 VPC 的 Helm Chart所有 infraK8s cluster, Vault, Logging由你托管客户只看到一个POST /api/v1/agents/{id}/runendpoint。收费模式也必须变按 agent 调用量$0.001/call而非按 runtime 小时。6.2 铁律二Trace Store 必须支持“跨 runtime 迁移”否则就是废纸我见过太多客户因 vendor lock-in 而放弃升级。一个典型悲剧客户用某 startup 的 runtime积累了 2TB event log现在想迁到 Bedrock却发现 log 格式不兼容所有历史数据作废。这直接导致客户不敢启用新功能如 policy audit因为“audit 无法覆盖历史”。因此你的 trace store 必须原生支持 OpenTelemetry LLMs 标准这是目前最有可能成为事实标准的格式提供双向转换器anthropic-to-otel,bedrock-to-otel,vertex-to-otel确保客户随时可走承诺长期格式兼容哪怕你升级了内部存储引擎对外 API 和 event schema 保持 5 年不变。这听起来是技术债实则是信任契约。当 runtime 层 commoditizetrace store 就是客户唯一的“数字资产”你必须把它当成不动产来守护。6.3 铁律三垂直 agent 的合同必须包含“效果对赌条款”Salesforce Agentforce 的 $800M ARR背后是无数份“效果对赌”合同。典型条款如“若 agent 未能将销售线索转化率提升 15%第二年费用减免 30%”“若 claim processor agent 的首次通过率 98%按差额比例退款”。这倒逼创业者必须深耕垂直领域懂医疗 billing 的编码规则比懂 transformer 架构重要十倍构建效果度量体系不是“agent 是否运行”而是“它是否提升了 ROI”承担商业风险从“卖软件”转向“卖结果”这才是 enterprise sales 的终局。Anthropic 的 Managed Agents恰恰为这种模式提供了完美基座——它让垂直 agent 的分发、监控、计费变得无比简单。所以别再盯着 runtime 的 benchmark去研究医院的 DRG 支付规则去读懂 SEC 的 10-K 文件结构去搞懂销售团队的 SPIFF 激励政策。价值不在沙盒里而在业务结果中。我个人在实际落地中发现最成功的垂直 agent 创业者往往不是 AI 工程师出身而是有十年以上行业经验的“前销售总监”、“前医保审核员”、“前投行分析师”。他们知道客户真正痛在哪里而 Anthropic 刚发布的这层 runtime不过是让他们把几十年经验更快、更稳、更规模化地装进机器里。