开源模型首次盲测击败闭源——GLM-5.2 的 753B MoE 打破了“贵=好“的等式

发布时间：2026/6/22 16:08:29

来源Z.ai智谱2026-06-17 开源许可证MIT无国界无附加条件核心突破753B MoE 1M 上下文成本 1/6 为什么你现在应该关注这个模型不是因为又有一个开源模型——而是因为这是开源模型第一次在盲测中击败顶级闭源模型。FrontierSWE 74.4% GPT-5.5 的 72.6%。LMArena Coding 盲测全球第 2Design Arena 全球第 1。同时API 定价 $1.4/$4.4 per M tokens约为 GPT-5.5 的 1/4~1/6。贵好的等式被打破了。三条关键数据指标GLM-5.2GPT-5.5Claude Opus 4.8参数753B MoE (40B 激活)闭源闭源上下文1M tokens~200K~200KFrontierSWE74.4%✅72.6%75.1%输入成本$1.4/M~$8/M~$10/M输出成本$4.4/M~$24/M~$30/M许可证MIT无国界无附加条件闭源闭源架构解析为什么 753B 只需 40B 的算力MoE混合专家架构753B 总参数但每个 token 只激活 40B 参数。相当于一个 753 人的公司每次任务只派 40 人出勤——省工资但不省能力。MoE 的核心优势推理成本低40B 激活推理时只需 40B 级别的算力知识容量大753B 总参知识覆盖面接近 753B 级别专业分工不同专家处理不同类型的任务IndexShare 机制1M 上下文的工程可行性1M 上下文的最大瓶颈不是能不能读而是算不算得起。IndexShare 的核心思想每 4 层稀疏注意力层复用同一个轻量级索引器。效果在 1M 上下文长度下每 token 计算量FLOPs降低2.9 倍。通俗理解做同样的工作只需要1/3 的计算量。这使得 1M 上下文从理论可行变成工程可行。Flexible Effort推理深度的调节旋钮不是所有任务都需要深度思考。GLM-5.2 提供了推理深度调节简单任务→ 快速响应模式省 token复杂任务→ Max 模式深度推理这类似于 OpenAI o1/o3 的思考时间概念但在开源模型中首次实现。MTPMulti-Token Prediction优化投机解码token 接受长度提升最高20%——推理速度更快。Benchmark 详解长周期工程级代码基准测试GLM-5.2GPT-5.5Claude Opus 4.8FrontierSWE74.4%72.6%75.1%PostTrainBench34.3%28.4%37.2%SWE-Marathon13.0—26.0FrontierSWE评估数小时至数天级别的开源技术项目。GLM-5.2 超越 GPT-5.5PostTrainBench测试能否训练和改进更小模型。领先 GPT-5.5 近 6 个百分点SWE-Marathon编译器、内核优化等系统级开发。仍落后 Opus 4.8但远超 Gemini 3.1 Pro4.0传统编程与通用能力基准测试GLM-5.2前代 GLM-5.1Terminal-Bench 2.181.063.5SWE-bench Pro62.158.4MCP-Atlas76.8—AIME 202699.2—Terminal-Bench 2.1首个破 80% 的开源权重模型MCP-Atlas工具调用76.8超过 GPT-5.5 的 75.3AIME 2026数学竞赛99.2盲测 ArenaLMArena 编程盲测全球第2击败 Claude Opus 4.7 和 4.8Design Arena 设计编程全球第1击败 Claude Fable 5首次有开源模型在盲测中击败顶级闭源模型。对 Agent 工程的三个关键意义意义一1M 上下文长程 Agent 执行链路不再截断当前大多数 Agent 在 200K 上下文内运行。200K 听起来很多但一个处理复杂代码库的 Agent几十轮对话工具调用就能耗尽。1M 上下文意味着 Agent 可以跑几百轮对话不丢状态。对于长程自动化任务如代码迁移、系统重构这是质变。意义二MIT 许可可蒸馏为专用 Agent 模型MIT 许可允许✅ 蒸馏为更小的专用模型✅ 本地部署满足合规要求✅ 商业使用无附加条件✅ 无地域限制企业可以在内部部署一个 7B-13B 的蒸馏模型专门处理特定 Agent 任务——既合规又高效。意义三成本 1/4~1/6 Agent 量产从奢侈品变基础设施按 GPT-5.5 的 $24/M output tokens 计算一个 7×24 小时运行的 Agent 月成本约 5000-8000 元。按 GLM-5.2 的 $4.4/M 计算月成本降到不到 1000 元。Agent 量产的经济性障碍从模型太贵变成了基础设施不够。成本对比实战计算假设一个 Agent 每天处理 100 个任务每个任务平均 2000 input 500 output tokens。项目GPT-5.5GLM-5.2日 input 成本$1.6$0.28日 output 成本$1.2$0.22日总成本$2.8$0.50月成本$84$15年成本$1,008$180如果跑 10 个并行 Agent年成本从 $10,080 降到 $1,800。So What三类人的行动清单工程师1M 上下文改变了 Agent 的架构方式——不再需要复杂的上下文压缩和分块策略先试直通MIT 许可意味着可以蒸馏——选几个高频任务蒸馏出 7B 专用模型做本地部署明天就能做用 GLM-5.2 API 跑一个之前因上下文截断而失败的任务验证 1M 上下文的效果技术管理者开源模型降低了安全测试的试错成本——“跑 1000 次对抗测试从太贵了变成日常”Agent 项目预算可以重算了——之前因为模型成本被否决的 Agent 项目现在重新评估明天就能做算一下团队所有 Agent 项目的月 API 成本如果换 GLM-5.2 能省多少创业者/PMAgent 量产从烧钱变成算账——$1.4/M tokens 意味着 7×24 Agent 月成本不到 1000 元MIT 许可打开了企业市场——本地部署可蒸馏是合规敏感客户的核心需求明天就能做检查产品中哪些功能之前因 LLM 成本被砍掉现在可以重新考虑⚠️ 方法论局限Arena 盲测基于社区投票——样本偏差和对抗刷分风险未充分讨论SWE-Marathon系统级开发仍大幅落后 Opus 4.8——复杂系统编程场景不是强项1M 上下文的实际可用性依赖 IndexShare——极端长文本的信息检索准确性需独立验证MoE 架构的微调成本可能高于 Dense 模型——蒸馏和领域适配的实际开销需评估作为中国公司发布的模型国际合规审查可能是某些企业的顾虑尽管 MIT 许可无国界限制延伸阅读官方页面glm5.ai 权重下载HuggingFace | ModelScope 技术解读StableLearn 深度分析互补阅读HeadroomToken 压缩基础设施进一步降低成本⏱️如果只有 5 分钟看 FrontierSWE 和 Arena 盲测数据理解开源首次击败闭源的里程碑意义。路易乔布斯 © 2026 · AI论文观察 · 论文精读Z.ai GLM-5.2 · 开源大模型 · Agent工程基于官方发布信息与开源权重研读

文章详情

开源模型首次盲测击败闭源——GLM-5.2 的 753B MoE 打破了“贵=好“的等式

相关新闻

最新新闻

日新闻

周新闻

月新闻