论文阅读笔记：NEWTON — Agentic Planning for Physically Grounded Video Generation

发布时间：2026/6/30 4:14:20

一、Motivation1.1 现象视频生成模型不懂物理当前的视频生成模型Sora、Veo、Wan、LTX-Video 等已经能生成视觉上非常逼真的视频但在物理规律层面存在系统性错误球无缘无故变速、下落的物体无视重力、碰撞违反动量守恒。在 VideoPhy-2 基准测试上表现最好的模型联合准确率也仅有 32.6%。1.2 根因分析规范瓶颈Specification Bottleneck论文认为问题的根源不是模型能力不够而是输入信息不足。文本提示词是对物理世界的有损压缩——一个球从桌子上滚落这句话缺失了质量、摩擦系数、桌高、初速度等决定运动轨迹的关键参数。生成器只能从一句话中猜出所有参数本质上是一个欠定问题ill-posed problem。1.3 物理条件信号的三个必要性质论文由此推导出要让视频物理正确条件信号必须同时满足充分性Sufficiency覆盖足够多的物理维度不留未指定的参数动态性Dynamism能根据不同场景自适应地选择不同的物理规范可验证性Verifiability能检查输出是否符合物理并在不符合时纠正现有方法无一同时满足这三点端到端训练隐式嵌入物理不充分ControlNet 提供固定模态信号不动态所有一次性方法缺乏反馈不可验证。二、Related Work2.1 基于外部模拟器的方法这类方法用显式物理模拟器计算运动再让生成模型渲染画面PhysMotion用可微 MPM物质点法对 3D 高斯物体做时间步模拟再用文生图模型精炼帧PhysCtrl在 55 万条模拟轨迹上训练生成式物理网络覆盖弹性体/沙子/橡皮泥/刚体四种材料PhysChoreo从单张图片重建部件级材料场用可编辑模拟器驱动生成局限绑定固定的模拟器类型不能根据场景灵活切换。NewtonGen将牛顿力学方程嵌入神经 ODE对单物体连续运动效果好但无法处理碰撞和多物体交互。2.2 修改生成器内部结构的方法这类方法直接改造视频生成模型让它内化物理知识VideoREPA从自监督视频基础模型中蒸馏 token 级关系到 DiTWISA将物理拆为文本/定性/定量三层信号通过物理专家混合注意力模块注入ProPhy两阶段物理专家混合 VLM 蒸馏精炼实现区域级物理对齐PhyGDPO基于奖励的后训练通过偏好优化调整隐式物理先验局限都是一次性生成不逐样本验证不满足可验证性要求。2.3 智能体系统用于视觉生成GenAgent将图像生成器作为可调用工具用 agentic RL 端到端训练M³规划-检查-精炼-编辑-验证的集成迭代修复组合式图像生成中的错误CECT与 NEWTON 最接近用 LLM 推理因果事件链引导视频扩散模型NEWTON 与 CECT 的三点区别(1) CECT 输出文本事件链NEWTON 调用异构工具库产生显式物理信号(2) CECT 只规划一次NEWTON 有验证-修正循环可迭代最多 5 轮(3) CECT 用冻结的 LLM 推理NEWTON 的规划器用 Flow-GRPO 在线训练。三、Method3.1 整体架构三角色迭代循环NEWTON 将视频生成降级为智能体工具箱中的一个动作系统由三个角色构成规划器Planner唯一可训练组件Qwen3.5-9B VLM。每轮读取记忆状态MtM^tMt包含原始提示、历史工具调用与输出、验证器反馈输出结构化动作at∼πθ(at∣q,Mt)a^t \sim \pi_\theta(a^t | q, M^t)at∼πθ(at∣q,Mt)决定调用哪些工具及参数。执行器Executor调度三个物理感知工具和冻结的视频生成器。框架与生成器无关generator-agnostic。验证器Verifier多模态评估模型VideoPhy-2-AutoEval对生成视频从语义一致性SA和物理常识PC两个维度打分分数反馈到记忆池中闭环驱动下一轮规划。系统运行TTT轮实验中T5T5T5最终输出所有轮次中验证器得分最高的视频。3.2 三个物理感知工具工具功能对应的物理需求关键帧生成用文生图模型在指定时间位置生成引导图像施加时间边界条件空间约束如抛物线顶点时球的位置Python 科学计算沙盒化 Python 环境可做抛体轨迹、动量守恒、旋转动力学等计算定量物理参数提示词精炼对生成提示词做自然语言增强补充物理细节、材料属性、场景约束定性物理描述三个工具覆盖了互补的物理维度共同满足充分性要求。3.3 训练Flow-GRPO 在线策略优化为什么不用离线监督训练离线 SFT 让规划器脱离实际系统动态——它看不到自己犯的错无法从工具失败中恢复也不能适应真实的验证器反馈。AgentFlow 的实验表明SFT 甚至比冻结基线平均准确率下降 19%。Flow-GRPO 流程对每个提示词采样G8G8G8条并行轨迹每条执行完整的T5T5T5轮循环轨迹级奖励做组归一化得到优势估计AiR(τi)−meanstdA_i \frac{R(\tau_i) - \text{mean}}{\text{std}}AistdR(τi)−mean用裁剪代理目标 KL 惩罚更新规划器策略奖励设计三部分格式惩罚任何格式/长度违规触发固定负奖励质量奖励RqualityR_{\text{quality}}Rquality基于最高 SA/PC 分数的分层函数设置中间档奖励密化信号关键帧奖励RkfR_{\text{kf}}Rkf使用关键帧且语义一致性达标时给予固定奖励鼓励探索计算奖励RcomputeR_{\text{compute}}Rcompute包含有效物理计算且质量奖励为正时给予固定奖励防止空计算刷奖励四、Experiments4.1 实验设置主要基准VideoPhy-2590 条文本、197 种物理动作含 180 条 HARD 子集跨基准PhyGenBench160 条提示覆盖力学/光学/热力学/材料四类训练仅训练规划器Qwen3.5-9B在 VideoPhy-2 训练集 3350 条提示上用 Flow-GRPO 训练 1 个 epoch8 张 H200 GPU4.2 主要结果VideoPhy-2关键发现NEWTON 是唯一同时提升 PC 和 SA 的方法Joint 从 21.36% 提升到 29.66%HARD 子集上提升近2.75 倍4.44% → 12.22%VideoREPA 和 WISA 出现严重的 PC-SA 权衡——PC 上升但 SA 崩塌拖累整体表现4.3 跨基准泛化PhyGenBench同一个训练好的规划器不经重训直接迁移到 PhyGenBench平均分从 0.510 提升到 0.560超过之前最强的开源生成器 Wan2.20.544。增益集中在光学0.067和材料0.092。4.4 消融实验规划器规模2B → 4B → 9BHARD-Joint 单调上升7.22% → 9.44% → 12.22%更大的规划器在困难场景帮助最大。迭代轮次TTTT2/3/5T2/3/5T2/3/5HARD-Joint 从 4.44% 爬升到 10.00% 再到 12.22%验证-修正的收益随轮次递增。训练策略对比冻结仅提示→ 离线 SFT → Flow-GRPO本文Flow-GRPO 大约将 SFT 相对于冻结基线的增益翻倍生成器骨干在 Veo-3.1 上 Joint 从 30.74% 提升到 37.41%说明 NEWTON 的增益可以叠加在更强的骨干上而不是替代它。4.5 人类偏好实验20 名志愿者对 197 组视频做盲评NEWTON 在物理正确性79.8%和整体质量47.4%上均大幅领先 LTX-Video11.3% / 31.9%和 Wan2.28.9% / 20.7%。五、Conclusion论文识别出了视频生成物理失败的根本原因——规范瓶颈并提出了 NEWTON 这一智能体框架。核心思想是将视频生成从系统输出降级为工具箱中的一个动作通过规划器动态编排物理感知工具并配合验证器做闭环迭代。规划器作为唯一可训练组件用 Flow-GRPO 在线优化。实验证明该方法在不修改生成器的前提下显著提升了物理一致性。局限性当前仅有三个工具缺少流体动力学模拟器、铰接体引擎等覆盖更广的物理工具验证器仅提供标量反馈语言形式的诊断信息可能带来更有针对性的重规划。六、个人思考6.1 问题定位很精准之前很多工作都在想怎么让模型更懂物理不管是加模拟器还是改模型结构但论文指出问题出在输入端你给的信息本来就不够模型能力再强也是巧妇难为无米之炊。这个视角将问题从能力不足转化为信息不足。6.2 智能体范式的优势与代价把视频生成包装成智能体的一个工具好处是灵活性极强。可以根据场景按需组合不同工具还能迭代纠错。但代价也很明显每个视频需要跑 5 轮循环每轮可能涉及工具调用、视频生成、验证打分推理成本大幅上升。论文没有详细讨论推理时间和计算开销这在实际部署中可能是一个关键瓶颈。6.3 工具库的扩展性目前只有三个工具关键帧生成、Python 计算、提示词精炼覆盖的物理范围有限。论文自己也承认缺少流体、铰接体等模拟器。一个有趣的方向是让规划器学会动态发现和调用新工具甚至自动编写物理仿真代码这可能进一步释放该框架的潜力。6.4 验证器是隐含的天花板整个系统的迭代优化依赖验证器的评分质量。如果验证器本身对某类物理场景判断不准确规划器的优化方向就会出偏。将标量反馈升级为更细粒度的语言诊断如物体在第 1.2 秒处的下落速度不符合重力加速度可能是一个重要的改进方向。6.5 与 LLM Agent 范式的启示这篇工作的更大意义或许在于提供了一个范式启示对于生成模型的系统性缺陷与其死磕模型内部不如在外部搭建一个智能体框架把生成当作可调用的工具配合验证-修正循环来补齐短板。这个思路可能不仅适用于物理一致性也适用于视频生成中的其他挑战如逻辑一致性、因果连贯性等。6.6 关于写作风格的题外话通读全文可以明显感觉到大模型辅助写作的痕迹。最突出的特征是破折号的高频使用几乎每一段都有多处以破折号插入补充说明或并列成分这种句式在人类学术写作中偶尔出现是正常的但如此密集地贯穿全文就非常典型地暴露了 LLM 的写作习惯。

文章详情

论文阅读笔记：NEWTON — Agentic Planning for Physically Grounded Video Generation

相关新闻

最新新闻

日新闻

周新闻

月新闻