英伟达开源60B双塔稀疏模型AI模型架构的新方向

发布时间：2026/7/5 4:14:46

7月4日消息英伟达宣布将于2026年7月开源Nemotron-Labs-TwoTower双塔稀疏混合专家模型参数量60B。这是继GPT-6 4月发布DeepSeek V4 4月发布之后2026年AI大模型领域的又一次架构创新。双塔稀疏混合是什么传统MoE模型通过路由机制将输入分配给不同的专家网络但存在专家负载不均衡和路由崩溃的问题。英伟达的TwoTower架构采用双塔结构将特征解耦与稀疏混合结合简单说就是用两座塔分别处理不同维度的特征再通过稀疏路由进行混合。这种架构的好处是参数利用率更高推理时不需要全部激活60B参数可以大幅降低推理成本。对于开发者来说这意味着在本地或边缘设备上部署大模型变得更可行。2026年大模型三强对比GPT-6和DeepSeek V4和Claude Mythos是2026年上半年的三大旗舰模型。加上英伟达这次的开源模型格局更复杂了。GPT-6 2026年4月14日发布参数量未公开特点是性能提升40%多模态。DeepSeek V4 2026年4月发布参数量1T特点是81% SWE-bench开源。Claude Mythos 2026年Q1发布参数量未公开特点是长文本推理增强。Nemotron TwoTower 2026年7月发布参数量60B特点是开源双塔稀疏架构。英伟达这次开源的模型虽然参数量不如DeepSeek V4但架构创新值得关注。60B的参数量在推理成本和性能之间取了平衡而且开源意味着开发者可以自由使用和修改。对开发者的影响大模型开源趋势在2026年越来越明显。DeepSeek V4开源后社区基于它做了大量二次开发。英伟达这次开源TwoTower模型可能会带来新一轮的应用创新。对于做AI应用的开发者来说选择变多了。需要顶级性能用GPT-6 API或Claude API。需要开源可控用DeepSeek V4或Nemotron TwoTower。需要垂直场景用开源模型微调或用专门的Agent工具。以AI写作为例通用大模型GPT-6和Claude写短文很强但写长文有上下文限制。垂直写作工具如KM智能写作走的是另一条路用Agent架构解决长文记忆问题先搭大纲再逐章生成。这种思路跟英伟达的专门架构解决专门问题是类似的逻辑。开源vs闭源的2026格局2026年开源和闭源模型的差距在缩小。DeepSeek V4的81% SWE-bench成绩已经接近闭源模型水平。英伟达开源TwoTower模型进一步证明了开源社区有能力做出架构级的创新。但闭源模型GPT-6和Claude在训练数据规模和安全对齐方面仍有优势。短期内的格局可能是闭源模型做通用基础开源模型做垂直优化。对于普通开发者来说这是好事。选择多了成本降了技术路线也更多元了。

文章详情

英伟达开源60B双塔稀疏模型AI模型架构的新方向

相关新闻

最新新闻

日新闻

周新闻

月新闻