
最近 Anthropic 研究产品经理 Theodora Chu 的一段演讲火了。她抛出了一个数据Anthropic 内部超过 80% 的代码由 Claude 合并。不是生成建议不是辅助补全——是直接合并进代码库。怎么做到的她只给了三个字Close the Loop。一年前失败 3 次现在失败 1 次Theo 用 SWE-bench Verified 展示了 Claude 的进步线Sonnet 3.7 得分约 60%Opus 4.8 到了 88%。这意味着一年前模型在这些任务上的失败次数大约是现在的 3 倍。失败率下降带来的变化不是多做对几道题而是模型能开始接更长的活了。因为只要你链条够长就一定会出错能跑下去的前提不是你不出错而是出错之后能恢复。旧模型有个经典死法叫 doom looping跑挂了你告诉它换种方式它说好然后回去重跑——用的还是同一种方式。新模型不一样。它能读反馈、理解失败原因、换路径再试。执行→验证→修正→再执行这个环开始真正转起来了。这也是 Theo 给开发者最核心的建议别只给模型工具给它验证自己输出的能力。所以 Anthropic 让 Claude 能访问前端界面、自己点按钮、自己判断页面是否正常。模型拿到验证信号之后开发者不需要每一步都盯。这就是 Close the Loop。编程要闭环评测就不需要吗听完演讲我第一反应是这道理代码圈已经卷明白了评测圈呢过去做内容评测的标准姿势是一条 Prompt 丢给一个大模型坐等打分。模型说 8 分就是 8 分6 分就是 6 分。没有验证、没有对照、没有纠错。这在 Theo 的框架里叫什么叫没有闭环的单次输出。模型写的代码你不验就合进主分支你敢吗不敢。那凭什么模型打的分别人就直接信更致命的是Theo 的建议是给 Agent 配备Computer Use这样的自动化验证工具让模型能自己去前端点一点、做质检、通过环境反馈发现错误。说到底你得有验证环节。但你让大模型既写文案又给自己的文案打分等于跳过了验证——自己写卷子自己判。评测该怎么 Close the LoopRaaS100平台已经上线的万智测评做的就是这样一件事。你不需要写 Prompt。你把内容丢进去一万个独立的 AI 数字受访者各自独立打分最后汇总成一份分布报告。每一个受访者是一个独立的判卷人它们互不知情、互不影响。这恰好就是 Theo 说的闭环结构在评测领域的落地不是一次输出不是一个大模型给一个分是上万个独立判断聚合。自带验证不是一个人判卷是统计分布——你能看到不同人群的打分离散度。一个 7 分和一个 2 分同时存在说明内容打偏了人群。可恢复的错误信号平均分 8 分但点踩率 30%或者特定人群给了极高的购买意愿而另一群为零——这些是单 Prompt 评测永远问不出来的信息。Theo 说新模型的提升不是因为不会犯错是因为能从错误中恢复。万智测评的评测逻辑也一样不是追求绝对正确的分数是追求足够多的独立视角让你看到全貌。如果你也感兴趣欢迎添加我微信我们一起来探讨一下模型在进化评测也该进化了今天的模型已经有了自适应思考、长程任务连贯性、错误自我恢复。但你如果还在用一条 Prompt → 一个分数的方式做评测你相当于用十年前的方式测试今天的模型。Anthropic 证明了 Close the Loop 能让 80% 的代码由 AI 直接合并。评测领域也该有自己的闭环了——不是找一个更强大的模型来打分而是让足够多的独立判断形成一个自带验证的评测回路。