
技术社区的反应6月13日智谱在X平台宣布GLM - 5.2完全开放定在当晚5点21分与美国政府相关指令时间呼应。GLM - 5.2是744B参数、激活40B的MoE模型开源且支持1M token上下文在长程任务基准FrontierSWE上表现出色相关博客成爆款。但技术圈更关注其在长程强化学习阶段放弃GRPO。GRPO由DeepSeek于2024年提出曾是开源社区默认答案GLM - 5.1用过GLM - 5.2换掉了。消息传开后X上讨论分几条线有人称「critic回来了」开发者hallerite认为群体内比较在长任务行不通OpenAI和Anthropic可能早用价值网络。类似帖子多有人对比发现actor - critic表现更好有人怀疑前沿实验室未依赖GRPOethayarajh指出PPO更贴近「苦涩的教训」。Xiuyu Li提醒部分长程任务训练团队未全面采用GRPO。学术界则不断涌现GRPO变体。智谱为什么换掉了GRPO要理解切换需先了解GRPO解决的问题。传统PPO的价值网络训练贵且不稳定GRPO让模型生成一组回答以组内平均奖励为基线算优势值在短任务上省显存又稳定GLM - 5.1采用此思路组大小固定为32。但GLM - 5.2针对长程智能体任务其轨迹经压缩后子轨迹长短不一GRPO要求的组内比较无法进行。智谱的解法是请回价值网络长程强化学习转向「基于critic的PPO」。配合改动智谱用slime框架打通训练和推理并行蒸馏专家模型约两天完成。针对coding任务奖励作弊引入两阶段拦截机制。简单说GLM - 5.2未否定GRPO只是其设计前提在长程任务不成立。GRPO真的过时了吗把切换总结成「GRPO不行了」是偷懒结论。GRPO在短任务上仍表现良好其变体还在打磨其在特定场景的问题。GRPO提出者DeepSeek在训练分领域专家模型时仍用GRPO合并模型时换用新方法。GLM - 5.2换掉的是GRPO在长程智能体任务上的适用性。学术界实验也支持这一判断在长程任务中带价值函数的PPO表现更好。所以强化学习算法选择变得任务相关短程任务GRPO及其变体够用长程任务价值网络重要。GLM - 5.2引发的讨论有分量提供了开源可验证样本。结语过去两年GRPO是开源大模型强化学习代名词。GLM - 5.2提醒人们其有边界随着开源模型从「答题选手」走向「干活的智能体」算法选型要随任务形态进化。下一次范式松动未知但强化学习未来走向争论才开始。