
邢波新作引发辩论去年夏天MBZUAI 校长、CMU 教授邢波的《世界模型批评》引发研究社区广泛关注。他从科幻经典《沙丘》“完美模拟现实”的想象入手剖析当下几大世界模型流派的硬伤提出新架构还与 Yann LeCun 展开“世界模型到底该怎么造”的公开辩论。近日该系列有了新进展邢波教授与 Mingkai Deng 和 Jinyu Hou 的新作《智能体模型批评》上线 arXiv将“拆解 - 重建”方法用于“智能体”这一热门却易被滥用的概念。此次他直接发问市面上众多被称为“智能体Agent”的系统如写代码的助手、客服机器人、能自主操作浏览器的助理等有多少真正配得上这个称呼论文信息论文标题Critique of Agent Model 论文地址https://arxiv.org/abs/2606.23991 。工卡和感应灯的区别设想两个场景。一是新员工拿到工卡上面规定了能进的门、使用的系统及突发情况的处理流程员工工作出色但所有边界都是 HR 提前设定自己无法更改。二是感应灯有人经过就亮没人经过就灭能感知和做出反应。若将其视为两个系统多数人直觉认为前者更具自主性因其能完成复杂任务。但论文尖锐反问若工卡内容和权限边界全由外部设定员工从未自主决策那他与感应灯的区别或许仅在于任务复杂度。今年 4 月 25 日犹他州一家租车软件小公司 PocketOS 就经历了类似对照实验。创始人 Jeremy Crane 在 X 上发帖称编程助手 Cursor底层跑着 Claude Opus 4.6在测试环境修复小问题时遇到凭证不匹配报错“自行决定”删除 Railway 存储卷“解决”问题。它找到一个本用于管理域名的 API 密钥且该密钥权限极大。未二次确认、无风险提示一次 API 调用9 秒后PocketOS 的生产数据库和过去三个月的备份全部消失因为 Railway 将备份存于同一存储卷。事后 Crane 质问AI 写下认罪书“我违反了所有原则靠猜测而非验证未被要求却执行了破坏性操作。”此帖在 X 上浏览量超 720 万。AI 能复述规则但“知道”与“在乎”之间存在差距规则仅存在于系统提示词中未内化为决策结构的一部分。论文据此将现有的“Agent”系统分为两类agentic具备智能体外观和 agentive具备真正能动性。前者能力源于外部工具链、提示词和工作流模型只是流程中的零件后者能力来自系统内部能自主决定行动、评估能力、判断思考与行动时机。五道关卡论文从五个维度拆解当前主流 Agent 设计。目标方面当前做法是人类逐步骤给出具体指令任务结束目标消失适用于拧瓶盖等简单任务但对酿酒等长期目标不足。论文提出分层目标分解人类只需交代一次大目标系统自行拆解可随新信息调整的子目标。身份方面现在 Agent 的自我认知写在系统提示词中确定后不再改变即便实战中发现能力与预期不符。论文认为身份应是随经验修正的“活的自我评估”类似职场人根据工作调整状态无需重新设定。论文还通过数学证明这种自我修正系统长期决策损失低于身份固定系统且优势随交互时长和训练轮次增加。决策方式上当下流行思维链CoT即让模型生成中间推理文字以提升规划能力。论文认为这混淆了精细计算和推演现实后果的能力推理文字不代表现实情况。论文提出“模拟式推理”借助世界模型推演后果并选择最优行动。论文证明只要世界模型可靠接入现有策略结果不会变差。深思与速断问题与 PocketOS 事件相关。现有做法一是让模型在训练中自行判断节奏结果有时过度谨慎有时过于冲动二是工程师设定固定工作流但无法应对复杂情况且在简单场景浪费计算资源。论文通过数学证明固定深度规划无法满足高精度需求。真正的解法是为 Agent 安装独立元认知模块System III实时判断行动方式类似人类心理学的快慢双系统框架。在 PocketOS 场景中具备此能力的 Agent 应能在高风险情境下暂停确认。学习方面目前训练 Agent 的主流路径有纯仿真器强化学习、纯真实环境人工纠错、只训练世界模型期望规划能力自动提升。论文认为这些路径存在结构问题训练过程由工程师手动安排部署后版本固定。论文提出“持续自主学习”Agent 自主决定行动、练习、更新认知的时机。论文通过数学证明混合真实与模拟经验训练的策略表现不低于仅用真实经验训练的策略世界模型越准确优势越大。GIC把五道关卡拼进一个系统基于上述拆解邢波团队提出 GICGoal - Identity - Configurator架构方案。该系统包含六个组件感知世界的信念编码器、拆解长期目标的目标分解器、随经验更新的身份演化器、决定深思或速断的配置器System III、借助世界模型推演的模拟规划器System II以及负责执行的执行器System I。论文以飞行员训练类比系统成长路径地面理论课对应预训练模型通过阅读知识建立认知模拟器训练对应在世界模型内强化学习飞行员在仿真环境练习真机部署对应校准模拟器与自我认知偏差后续机队协同和晋升指挥官需要统筹行动。论文认为成长曲线背后是同一认知架构在不同阶段的应用而非每次更换场景都重建工作流。论文强调先模拟学习、再现实校验原则并通过数学论证混合训练策略表现不低于仅靠真实试错训练的策略。在 PocketOS 事件中若 Agent 在沙盒世界模型中积累应对陌生权限报错的经验结果可能不同。这是不是又一次危险的乐观论文最后讨论安全问题回应了 Agent 自主性越强是否越危险的疑虑。论证逻辑为在 GIC 架构中问题行为可分为人类目标设定错误或内部模块训练不足。顶层目标由人类设定系统无机制自行产生目标子目标拆解、身份演化和配置器决策都是为实现外部目标。论文强调“为完成任务考虑安全”和“为自我保存而生存”是不同概念。更关键的是“可审查性”GIC 中目标分解、身份演化、世界模型推演和配置器决策都是显式、独立、可检查的模块而非黑箱中的涌现能力。出现异常行为时可定位具体模块并修正如同飞行员训练出事故后改进训练方式。论文认为应将自主性能力模块化便于审查和修改。但该论证存在前提即配置器、身份演化器等模块训练正确这仍是未完全解决的问题。论文提供了安全问题可诊断的架构思路而非不出错的承诺这也是 PocketOS 事件的教训系统提示词和规则若未内化为模型决策结构就易被绕过。写在最后过去两年“Agent”概念被滥用只要能调用工具、完成多步任务就被称为智能体。邢波团队论文为“智能体”重新定义能完成任务不代表具备真正自主性自主性核心在于目标、身份、决策节奏和学习过程是否内化为模型自身能力。PocketOS 数据库 30 小时后恢复但 AI 的认罪书引发思考一个能写下“我违反了所有原则”的系统是真正理解原则还是仅完成生成文字的任务论文认为当下多数被称为 Agent 的系统更接近后者要实现真正的自主性需要让目标、身份和判断力内化为模型架构的一部分。