美团 LongCat-2.0 正式发布:在国产算力集群上完成全流程训练与推理的万亿参数模型 6月30日美团正式发布新一代万亿参数大模型 LongCat-2.0并将对外开源。作为业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型总参数 1.6 T平均激活约 48 B动态范围 33B~56BLongCat-2.0 从零开始预训练原生支持 1M 超长上下文其架构设计自始至终围绕一个核心目标让模型在真实的 Agentic Coding 任务中更高效、更稳定地完成代码理解、生成与执行。正式版发布前LongCat-2.0预览版本已通过 OpenRouter 平台和longcat.ai面向全球开发者开放调用——截至目前该模型已跻身 OpenRouter 全球大模型调用量前三月调用量在 Hermes、Claude Code 和 OpenClaw 分列全球第一、第二和第三位成为最受全球 Agent 开发者欢迎的模型之一。01 国模国芯全栈协同完成万亿参数 MoE 模型在国产算力上的稳定训练LongCat 团队对国产算力的探索始于 2023 年三年来团队从千卡起步逐步攻克算子适配、通信优化、分布式稳定性等基础难题最终在五万卡集群上完成万亿参数模型的全流程训练与推理。LongCat-2.0 预训练数据规模超过30Ttokens覆盖中文、英文、多语言和代码等多类数据面对万卡级训练中的硬件故障、通信异常、显存压力与数值波动LongCat 团队从稳定性、正确性和效率三方面攻克国产算力训练难题。在稳定性上通过卡间通信异常处理、弹性扩缩卡和自动故障恢复将月均日故障率降低70%以上在正确性上通过自研设计确定性算子、Bitwise 一致性验证和参数检测保障训练结果的可靠同时基于实践提升关键模块计算精度、优化 Reduce 逻辑在效率上通过流水线调度、显存优化和算子级控核训练 MFU 提升 1.5 倍。最终LongCat 实现稳态日吞吐超过1T tokens/day完成万亿参数 MoE 模型在国产算力上的稳定训练。在推理阶段LongCat-2.0 围绕模型、算子和框架进行协同优化通过大规模专家并行聚合访存带宽支撑万亿参数 MoE 模型的低延迟解码将零计算专家机制融入专家并行通信流程使路由到零专家的 token 真正避免不必要的传输与计算并针对通信、Attention、GEMM 等核心算子优化调度结合提前下发与权重预取等框架机制进一步降低推理链路中的等待开销。从稳定训练到低延迟推理LongCat-2.0 验证了我们已具备在国产算力集群上进行大规模模型训练的能力。它不只是“能训出”万亿参数模型还让万亿参数模型能够在真实任务中稳定运行。02 让模型在真实 Agentic Coding 任务中更高效、更稳定地完成代码理解、生成与执行LongCat-2.0 的架构设计始终围绕一个核心目标让模型在真实 Agentic Coding 任务中更高效、更稳定地完成代码理解、生成与执行。1M超长上下文让 Agent 看见整个项目。传统模型在处理超过 100K 上下文后就开始“遗忘”前面的内容。LongCat-2.0 采用LongCat Sparse AttentionLSA稀疏注意力机制在处理长文本时不再“逐字逐句地看”而是智能筛选关键信息将计算量从平方级降至线性级。这使得模型在 100 万 Token 的超长上下文中依然保持精准的信息定位与理解能力。零计算专家 ScMoE让算力用在刀刃上。代码任务中不同 token 复杂度差异巨大——定义变量名和推导递归算法对算力的需求完全不同。LongCat-2.0 通过零计算专家实现 token 级动态激活33B~56B简单 token 不消耗算力复杂 token 自动获得更多计算资源。MOPD 多专家融合一个模型同时擅长写代码、做推理、懂交互。LongCat-2.0 通过 MOPD 架构融合 Agent、Reasoning、Interaction 三组专家能力——Agent Experts 专攻工具调用与自主纠错Reasoning Experts 深耕数学与 STEM 推理Interaction Experts 优化指令遵循与交互体验。推理时由门控网络根据任务类型动态调度最擅长的专家而非简单合并参数。得益于此模型在编程、推理、交互等维度均表现突出。LongCat-2.0 通过精细的架构设计让万亿参数模型在实际任务中更高效、更稳定地发挥能力。03 在编程能力、真实办公场景的复杂任务处理方面表现优异综合评测结果显示LongCat-2.0 凭借卓越的综合性能与稳定的任务表现在 Code 和 General Agent 场景表现优异。在编程能力方面LongCat-2.0 展现出扎实的综合实力在考察深层工程能力的 SWE-bench Pro 中获得 59.5领先Gemini 3.1 Pro54.2、GPT-5.558.6和 Claude Opus 4.657.3在 SWE-bench Multilingual 中取得 77.3 的成绩与 Claude Opus 4.677.8保持在同一水位此外在真实终端指令交互评测 Terminal-Bench 2.1 中取得 70.8体现了其在真实运维与开发终端任务中的稳定执行与纠错能力。在真实办公场景的复杂任务处理方面LongCat-2.0 表现均衡在搜索智能体评测集RWSearch中获得 78.8在生产力场景评测集 FORTE 中获得 73.2 在 BrowseComp 中获得 79.9均达到或接近前沿闭源模型水平证明了其在多步骤任务规划、复杂工具调用及长程检索执行上的高可靠性能够较好的契合企业级 Agent 的落地需求。04 在真实工作场景中成为大家可靠的“工作伙伴”内测期间我们面向真实工作场景征集了大量真实的用户任务需求这些来自一线的真实“工作单”可以看出 LongCat-2.0 在用户的真实工作场景中正在成为他们可靠的“工作伙伴”。Agent 搭建一问即得全闭环交付通过 LongCat-2.0 搭建的 AI SQL Agent业务人员可以直接用自然语言查询数据。LongCat-2.0 自动完成全链路闭环——理解问题意图、规划查询步骤并将数据结果转化为清晰的业务洞察。查看视频代码库迁移读懂老代码重构新架构给 LongCat-2.0 一个旧版插件代码库和一份新版SDK文档它能自行分析整体架构、梳理核心逻辑再将整个插件重构为符合新API的实现——保留全部原有功能修复潜在隐患编译一次通过。查看视频完整应用开发从一句话到可运行产品描述一个“儿童AI游戏训练场”的创意LongCat-2.0 会逐步生成技术选型、页面架构、游戏逻辑与视觉细节——从首页到三个完整可玩的游戏页面全部代码一次产出开箱即用。从一句话到可用的产品将灵感轻松实现。查看视频3D交互演示一句话生成一个3D世界通过一句话描述LongCat-2.0 即可生成完整 Three.js 3D 演示透明烧瓶、荧光液体、泡沫喷发、液面下降和堆积效果全部可交互呈现。所有代码封装在一个 HTML 文件中打开即用让创意快速转化为可交互的3D体验。查看视频AI 小说工厂从单点灵感到商业变现基于 LongCat-2.0 构建的“AI小说工厂”将创意写作升级为自动化内容流水线。用户输入灵感后系统编排多个 Agent自动完成世界观构建、并行章节生成、质量评估与回流修订。并通过长上下文能力保障百万字级设定一致性。最终内容可自动适配多平台发布并由 Web 面板实时监控生成进度与质量状态实现持续稳定的连载输出。查看视频立即体验API 开放平台https://longcat.chat/platform/product| 本文系美团技术团队出品著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容敬请注明“内容转载自美团技术团队”。本文未经许可不得进行商业性转载或者使用。任何商用行为请发送邮件至 techmeituan.com 申请授权。