最新,国产大模型从架构到训练基础设施全部自研,美团的LongCat-2.0做到了 就在刚刚美团开源了一个叫 LongCat-2.0 的大模型。总参数量1.6万亿每次算一个词只激活大约480亿参数。这是个混合专家架构模型很大但每次只用其中一小部分干活。网页链接https://longcat.chat/blog/longcat-2.0/但这次最值得聊的不是参数量。是整条链路从模型架构到训练基础设施美团自己走通了一条不依赖英伟达的路。国产自研体现在哪我把报告读完后梳理了一下这次的自研主要集中在三个层面。第一层训练硬件没走英伟达。报告原文写的是整个训练和部署都建立在 AI 专用芯片超级集群上。美团用了几万台规模的专用芯片集群来做预训练吃下了超过35万亿词元的数据跑完了数百万加速器小时。这里有个背景现在全球能训前沿级别大模型的团队大多绑死在英伟达的 GPU 生态上。CUDA 生态发展了十几年工具链成熟社区庞大。换一套硬件意味着从编译器、算子、并行策略到故障恢复基本得自己重新搭。报告里也提到相比成熟的英伟达生态配套软件社区还不够成熟。美团选择了这条路而且训得还挺稳全程没有回滚没有出现不可恢复的损失值飙升。在大模型训练里损失值飙升是常见的事动不动就得回滚检查点重来。全程不回滚说明这套专用芯片上的训练基础设施已经跑通了。第二层架构是自己设计的。报告里重点提了两个架构创新一个是 LongCat稀疏注意力简称 LSA一个是 N元嵌入。这两个不是拿开源方案直接套是在已有方法上做了自己的改进。LSA 是在 DeepSeek稀疏注意力 基础上演进的针对索引器的瓶颈做了三项改进流感知索引、跨层索引、分层索引目的是让长上下文处理更高效。N元嵌入 是把词元做N元组合扩展嵌入空间大概扩展了100倍塞了1350亿参数进去比例控制在总参数的10%以内。这两个架构的具体机制报告写得很细我不在这展开。只需要知道这是美团自己的架构设计不是直接用现成方案。第三层训练和推理工程是自己搭的。这部分报告着墨最多六维并行、超级集群架构、专用芯片优化器、超级内核、权重预取、预填充-解码分离部署一堆工程细节。核心就是在专用芯片这种软件生态没那么成熟的前提下美团自己搭了一套能跑1.6万亿参数模型的训练和推理工程体系。这三层叠在一起就是从头到尾自研的意思。模型是自己设计的架构是自己创新的训练基础设施是自己搭的硬件没走英伟达的路。技术方法简单梳理具体的技术实现我这里只做个梳理不展开。LSA 三项改进流感知索引把碎片化内存访问改成顺序读取提升带宽利用率跨层索引相邻层共用一个索引结果省重复计算分层索引先粗筛再精筛缩小索引处理空间N元嵌入在稀疏维度上扩展参数而不是继续堆专家稀疏度已经到97%左右继续加专家收益很小1350亿参数比例控制在10%以内1M 上下文用数千亿词元的百万级长上下文数据训练就是一百万词元的窗口为了训这个长度做了几个配套工程LSA的确定性算子、前向优化的稠密预热策略、能扩展到上下文并行512以上的全聚合并行方案这些工程细节不展开核心是一点1M上下文这个能力不是架构搭好就自动有的得专门用大量长上下文数据练出来专门为智能体应用准备因为智能体任务需要读整个代码库、读一堆文档、做长链路推理上下文短了根本干不了活这块和前面的 LSA 是呼应的LSA 让长上下文处理更高效1M上下文让模型能吃下足够长的输入两个配合起来才撑得起智能体场景后训练三组专家智能体专家专攻自主任务执行。覆盖代码、工作、搜索这些垂直领域不光优化端到端任务成功率还优化工具调用、参数解析、自我纠错这些原子能力让模型在复杂任务里别陷入死循环和重复调用推理专家专攻逻辑推理。覆盖数学、理工科、多跳推理还能根据问题难度自适应分配计算量难题多算简单题少算交互专家专攻人机交互。覆盖指令遵循、抑制事实幻觉、安全边界但有一个原则不为了安全把模型变得没用三组各有分工最后用多专家并行解耦架构融合到一起让最终模型同时具备任务执行、深度推理和高质量交互三种能力你想想这个分法智能体、推理、交互刚好对应了大模型落地最难的三件事能不能干活、能不能想清楚、能不能让人用着舒服这些只是梳理。如果你做技术想搞懂 LSA 三项改进到底怎么实现的N元嵌入为什么能扩展嵌入空间后训练三组专家怎么融合的建议直接看原文。能力怎么样看跑分LongCat-2.0 这次跑了六个基准测试对标的是 GPT-5.5、Gemini 3.1 Pro、Opus 4.6、4.7、4.8 这几组当前最强的模型。我把这六个测试分别测什么先说清楚。终端基准2.1测的是模型在命令行环境下的任务执行能力比如能不能自主操作终端、跑脚本、处理系统任务。这个直接反映模型当智能体的实操水平。软件工程基准Pro测的是真实软件工程问题解决能力给一个真实的代码仓库让模型修 bug、加功能看能不能跑通。这是目前评估代码能力最硬的测试之一。软件工程基准多语言版同样是软件工程问题但扩展到多种编程语言测的是跨语言泛化能力。FORTE测的是推理能力重点看模型在复杂逻辑链路上的表现。RWSearch测的是真实网页搜索能力模型需要联网检索信息、筛选、整合这个能力对智能体做调研类任务很关键。BrowseComp测的是浏览理解对比看模型能不能在浏览大量网页后做对比和判断。这六个测试覆盖了智能体实操、代码工程、跨语言、推理、搜索、浏览对比六个维度基本把一个大模型当前最重要的能力都测了一遍。对标名单里 GPT-5.5、Gemini 3.1 Pro、Opus 4.6 到 4.8都是当前第一梯队的模型。能放一起比说明 LongCat-2.0 的能力定位是冲着前沿去的。另外说一点实际可用性。LongCat-2.0 深度集成了 Claude Code、OpenClaw、Hermes 这些主流工具链。代码理解、仓库级编辑、自动化任务执行、智能体工作流都能跑。注意是深度集成不是简单适配。对开发者来说跑分是一回事能不能直接上手用是另一回事这块 LongCat-2.0 是实际可用的不只是刷分。回到开头那句话美团自己走通了一条不依赖英伟达的路。我需要客观说一点英伟达的生态目前确实还是最成熟的短期之内这个格局不会变。但 LongCat-2.0 的价值在于它证明了一条替代路线是可行的。1.6万亿参数专用芯片集群训练35万亿词元零回滚1M 上下文两个自己的架构创新最后能和第一梯队模型对标。这在当下的算力格局里有实际意义。H100 缺货、出口管制、价格飞涨如果不止一条路能走到前沿那对整个行业来说选择就多了。这是个开源模型代码在 GitHub 上。想研究技术细节的建议直接看原文和代码https://github.com/meituan-longcat/LongCat-2.0如果你对大模型这些方向感兴趣也欢迎来群里一起学习交流。 扫码即可加入