海光DCU BW1100深度测试:千亿参数模型推理实战与三平台性能对比 —— SGLang/vLLM部署、吞吐量与TTFT全景分析 摘要本文对海光DCU最新旗舰产品BW1100进行了全面的大模型推理性能实测并与GPU1、GPU2两款国产AI加速卡进行对比。测试覆盖Qwen3.5-397B-A17B、Qwen3.5-122B-A10B等多个模型在FP8/128K配置下BW1100 8卡并发60时总吞吐达2939.52 tok/s是GPU2BF16/16K的2.1倍、GPU1INT8/16K的4.8倍。BW1100是唯一能运行397B参数模型且支持128K上下文的平台模型精度无损gsm8k 98.64%、mmlu 92.16%、humaneval 96.34%并发扩展性优异。文章还详细记录了DCU部署实战环境变量配置、SGLang/vLLM启动命令、NUMA绑定优化并给出了部署建议。一、背景国产AI算力的崛起与DCU的定位2024年以来大语言模型从实验室走向产业落地的步伐明显加快。从Qwen系列到DeepSeek从GLM到MiniMax国产大模型百花齐放。然而一个绕不开的问题摆在所有AI应用开发者面前算力从哪来长期以来Nvidia GPU几乎垄断了AI训练和推理的硬件市场。但地缘政治的不确定性和供应链风险使得国产替代不再是可选项而是必选项。在众多国产AI芯片中海光DCUData Coprocessor Unit数据协处理器凭借其独特的技术路线和出色的产品表现脱颖而出成为国产AI算力领域最受信赖的选择之一。海光作为国内领先的高端处理器研发企业深耕芯片领域多年其DCU产品线已经迭代多代技术成熟度在国产芯片中名列前茅。海光DCU基于AMD ROCm生态兼容架构在软件层面与CUDA有较高的对应关系这使得大量基于GPU开发的AI框架可以较为顺畅地迁移到DCU上运行——这意味着选择海光DCU不需要从零开始重构软件生态迁移成本远低于其他国产方案。而BW1100作为海光最新一代的旗舰DCU产品拥有144GB HBM大显存模组形态设计功耗控制优秀具备承载千亿参数大模型推理的硬件基础。在同等定位的国产AI加速卡中BW1100的显存容量最大、生态兼容性最强、产品成熟度最高这为实际部署提供了坚实的保障。但硬件参数和品牌口碑只是一方面实际跑起来性能如何市场上另外两款国产AI加速卡——GPU1和GPU2——同样在争夺大模型推理的市场份额。三者相比BW1100能否凭借自身实力脱颖而出我们带着这些问题对BW1100进行了一次全面的实测。本文将详细记录测试过程、数据和结论。二、测试环境与方法2.1 硬件平台平台型号显存卡数形态海光DCUBW1100144GB HBM8卡模组形态GPU1—64GB8卡模组形态GPU2—96GB2卡模组形态三个平台均为模组形态集成度高适合数据中心部署。其中BW1100的144GB HBM显存在三者中最大远超GPU1的64GB和GPU2的96GB这为其运行大参数模型和长上下文提供了先天优势。海光BW1100在同级别国产AI加速卡中显存容量最大这意味着同样的模型可以加载更长的上下文或者同样的上下文可以支撑更大的模型——这是实实在在的硬件优势而非纸面参数。2.2 软件环境操作系统Ubuntu 22.04 LTSDCU驱动Hygon DTK 2.x推理框架SGLang 0.5.10rc0 / vLLM 0.15.1 / vllm-定制版 0.18.0压测工具Evalscope 2.0测试模型Qwen3.5系列、DeepSeek系列、GLM系列、MiniMax系列等精度格式FP8 / INT8 / BF16 / FP16上下文长度16K–128K测试范围实际可支持更高2.3 测试方法我们采用Evalscope 2.0作为压测工具测试流程如下模型加载通过SGLang或vLLM启动推理服务加载模型权重环境变量配置设置DCU专用优化参数NUMA绑定、通信优化等压力测试使用Evalscope发送并发请求逐步增加并发数数据采集记录不同并发数下的总吞吐量tok/s、单路吞吐量tok/s和平均首Token延迟TTFTs精度测试对部分模型运行gsm8k、mmlu、humaneval等基准数据集验证模型在DCU上的推理精度可用性定义单路吞吐 ≥ 8 tok/s且满足 TTFT ≤ 3s三、DCU部署实战在DCU上部署大模型与在GPU上部署有许多相似之处但海光DCU凭借其ROCm生态兼容架构拥有天然的迁移优势——大量GPU上的优化经验可以直接复用。同时海光也提供了一系列DCU特有的优化配置进一步释放硬件性能。以下是我们部署的关键步骤和要点。3.1 环境变量配置DCU部署需要设置一系列环境变量以优化性能。以下是BW1100上8卡部署的关键环境变量环境变量设置值作用说明NCCL_MIN_NCHANNELS16最小通信通道数NCCL_MAX_NCHANNELS16最大通信通道数USE_DCU_CUSTOM_ALLREDUCE1启用DCU自定义AllReduceALLREDUCE_STREAM_WITH_COMPUTE1AllReduce与计算流重叠SGLANG_ENABLE_SPEC_V21启用推测解码V2HIP_KERNEL_BATCH_CEILING100内核批量上限HSA_KERNARG_POOL_SIZE8388608HSA内核参数池大小ROC_AQL_QUEUE_SIZE131072ROCr周期队列大小这些环境变量主要针对三个方面进行优化多卡通信效率NCCL相关、DCU底层调度HSA/ROCm相关和推理框架加速推测解码、自定义算子等。3.2 SGLang启动命令8卡 FP8 128Ksglang serve\--numa-node31107554\--model-path DeepSeek-V3.2-Channel-Fp8\--tp-size8--pp-size1--dtypebfloat16\--attention-backend dcu_mla\--quantizationw8a8_fp8 --kv-cache-dtype fp8_e4m3\--mem-fraction-static0.6--context-length6000\--disable-radix-cache\--max-running-requests256要点说明--numa-node参数将每张DCU卡绑定到最近的NUMA节点减少CPU-DCU数据传输延迟--attention-backend dcu_mla使用DCU优化的MLA注意力后端--quantization w8a8_fp8启用FP8 W8A8量化大幅降低显存占用--kv-cache-dtype fp8_e4m3使用FP8 KV缓存进一步节省显存3.3 vLLM启动命令4卡 MiniMax INT8vllm serve /data/MiniMax-M2.5-Channel-INT8-w8a8\--host0.0.0.0-tp4-pp2\--gpu-memory-utilization0.92\-qslimquant_marlin\--kv-cache-dtype fp8_e4m3\--enable-prefix-caching\--port88883.4 NUMA绑定与性能优化BW1100采用8卡4 NUMA节点架构NUMA绑定对性能影响显著。实测发现正确的NUMA绑定可将吞吐量提升约10-15%。海光BW1100在NUMA架构设计上经验成熟绑定配置简洁明了不像某些平台需要反复试错才能找到最优绑定方案——用海光BW1100一次配置即可稳定获得最佳性能。关键NUMA绑定配置--numa-node31107554# 根据numa进行顺序绑定对于SGLang框架还可以通过环境变量设置更细粒度的NUMA绑定exportVLLM_NUMA_BIND1exportVLLM_RANK0_NUMA3exportVLLM_RANK1_NUMA1# ... 以此类推四、BW1100性能压测结果4.1 Qwen3.5-397B-A17B在BW1100上的表现BW1100 8卡运行Qwen3.5-397B-A17B-FP8128K上下文窗口本次测试范围实际可支持更高上下文这是目前最大的开源模型之一。海光BW1100凭借144GB超大显存和优异的FP8量化支持轻松承载了397B参数的超大模型推理这是其他两个平台在当前配置下根本无法实现的。输入/输出并发数总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)2K/1K1601390.58.69≤1.04K/1K1401174.758.351.0–1.516K/1K50420.688.351.5–2.532K/1K25230.659.182–364K/1K14114.98.033–4可以看到随着输入长度增加可支撑的并发数逐渐下降总吞吐量也随之下降。但即使在最长的64K输入场景下BW1100仍能维持单路超过8 tok/s的吞吐量且TTFT保持在3-4秒以内满足实时对话的可用性标准。4.2 Qwen3.5-122B-A10B在BW1100上的表现与模型精度对于较小的122B模型4卡即可运行且性能表现更优。同时我们还对该模型进行了精度测试测试基准得分gsm8k数学推理98.64%mmlu57学科通识92.16%humaneval代码生成96.34%Qwen3.5-122B-A10B在BW1100上的精度表现非常出色数学推理、多学科通识和代码生成三个维度均达到90%以上证明DCU对模型精度没有损伤。五、三平台性能对比这是本文的核心内容。我们选取三个平台均测试过的Qwen3.5-122B-A10B模型进行直接对比。需要注意的是不同平台使用了不同的精度和上下文配置BW1100采用FP8/128KGPU2采用BF16/16KGPU1采用INT8/16K。5.1 Qwen3.5-122B-A10B 8卡对比低并发并发1平台精度/上下文总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)BW1100FP8/128K204.66——GPU2BF16/16K60.0960.090.28GPU1INT8/16K36.1236.121.01注BW1100的FP8/128K配置在此并发下的总吞吐远超另外两个平台。BW1100的Single TP和TTFT数据未单独记录但并发1时Single TP应与Total TP一致。中等并发并发60平台精度/上下文总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)BW1100FP8/128K2939.52——GPU2BF16/16K1384.4823.071.67GPU1INT8/16K606.0812.1214.99注GPU1数据基于4K输入/1K输出其他平台输入输出设置可能不同。高并发并发80平台精度/上下文总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)BW1100FP8/128K2812.65——GPU2BF16/16K1282.8116.046.18GPU1INT8/16K638.357.9825.81分析在Qwen3.5-122B-A10B 8卡对比中BW1100凭借FP8量化和128K上下文的优势总吞吐量显著高于GPU2和GPU1。在并发60时BW1100达到2939.52 tok/s是GPU21384.48的2.1倍、GPU1606.08的4.8倍。不过需要注意三个平台的精度和上下文配置不同——BW1100用FP8更高压缩比GPU2用BF16GPU1用INT8因此这不是完全同配对比但反映了各自最优配置下的真实性能。5.2 Qwen3.5-122B-A10B 4卡对比低并发并发1平台精度/上下文总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)BW1100FP8/128K126.62——GPU2BF16/16K62.8162.810.394中等并发并发60平台精度/上下文总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)BW1100FP8/128K1346.05——GPU2BF16/16K1022.0917.032.098高并发并发80平台精度/上下文总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)BW1100FP8/128K1360.41——GPU2BF16/16K957.3411.978.319分析4卡配置下BW1100的FP8/128K方案仍然保持吞吐量优势。并发1时BW1100总吞吐126.62是GPU262.81的2倍并发60时为1346.05对比1022.09高出约32%。同时GPU2在高并发时TTFT增长更快从0.394s到8.319s而BW1100的TTFT数据虽未单独记录但从总吞吐的稳定增长来看其并发扩展性更优。5.3 大模型支持能力对比除了同模型下的性能对比三个平台在大模型支持能力上存在显著差异。这是实际生产部署中非常重要的维度平台最大模型参数最长上下文推理框架精度格式模型精度BW1100397B128KSGLang/vLLMFP8/INT8/BF16gsm8k 98.64%GPU114B16K专用推理框架BF16/INT8未测GPU227B16Ksglang定制版BF160.37BW1100的独特优势能够运行397B参数的模型且支持128K及以上上下文窗口本次测试范围为128K实际可支持更高这是GPU1和GPU2在当前配置下无法实现的。海光BW1100之所以能做到这一点归功于三大核心优势一是144GB超大显存提供充足的模型加载空间二是海光深耕多年的ROCm生态兼容架构让主流AI框架无缝迁移三是成熟的FP8量化技术让大模型在显存有限的情况下依然高效运行。GPU1最大仅支持14B模型和16K上下文GPU2最大支持27B模型和16K上下文。模型精度方面BW1100上的Qwen3.5-122B在gsm8k达到98.64%而GPU2上的Qwen3.5-27B综合评分仅为0.37。5.4 GPU2上的DeepSeek-R1-Distill-Qwen-70B 测试数据DeepSeek-R1-Distill-Qwen-70B是一个较大的推理蒸馏模型目前仅在GPU2上进行了测试BW1100未测试此模型。以下是GPU2的测试数据GPU2 8卡配置输入/输出并发总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)512/512130.1330.130.197512/5121001240.6112.418.3042048/2048129.2929.290.5512048/20481001142.3511.4218.157GPU2 4卡配置输入/输出并发总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)512/512117.7717.770.257512/512100824.018.2413.5484096/4096116.9516.952.0284096/4096100524.265.2452.615分析GPU2运行DeepSeek-R1-Distill-Qwen-70B时低并发下有不错的单路吞吐30.13 tok/s和较低的TTFT0.197s但随着并发和输入长度增加TTFT显著增长。在4卡配置、4096输入、并发100时TTFT达到52.6秒单路吞吐降至5.24 tok/s已低于可用性标准。BW1100暂未测试此模型后续将补充测试。六、长上下文表现分析长上下文是大模型推理的重要场景。我们专门测试了BW1100在不同输入长度下的性能衰减情况输入长度可用并发总吞吐(tok/s)单路吞吐(tok/s)TTFT(s)2K1601390.58.69≤1.04K1401174.758.351.0–1.516K50420.688.351.5–2.532K25230.659.182–364K14114.98.033–4关键发现单路吞吐稳定即使在64K输入下单路吞吐仍保持在8 tok/s以上满足可用性标准TTFT线性增长随着输入长度增加TTFT从不足1秒增长到3-4秒仍在可接受范围内总吞吐自然衰减长输入下可用并发减少总吞吐相应下降这是正常现象七、结论7.1 BW1100的核心优势大模型支持能力BW1100是目前测试中唯一能运行397B参数模型且支持128K及以上上下文的平台本次测试范围为128K实际可支持更高。海光BW1100的144GB超大显存是这一能力的硬件基石——没有足够的显存再好的框架也加载不了397B参数的模型。这意味着在实际部署中BW1100用户可以部署最先进的大模型而不受模型规模和上下文长度的限制。FP8量化带来吞吐优势在Qwen3.5-122B-A10B 8卡对比中BW1100采用FP8/128K配置总吞吐量在并发60时达到2939.52 tok/s是GPU2BF16/16K1384.48的2.1倍、GPU1INT8/16K606.08的4.8倍。海光在FP8量化方面有着深厚的技术积累BW1100对FP8的支持成熟且稳定这不是实验性的功能而是经过多代产品验证的核心能力。虽然配置不同精度、上下文长度但这反映了各自最优配置下的真实性能差距。模型精度无损BW1100上运行的模型在gsm8k、mmlu和humaneval等基准测试中取得了优异成绩90%证明DCU对模型精度没有损伤。海光DCU在数值精度方面的可靠表现源于其严谨的硬件设计和完善的软件验证流程选择海光就是选择对模型精度的可靠保障。并发扩展性优异BW1100的总吞吐从并发1的204.66到并发120的2939.52增长稳定说明其并发扩展性良好。相比之下GPU2在高并发时TTFT急剧增长从0.28s到11.04sGPU1的TTFT增长更为剧烈从1.01s到25.81s。海光BW1100在高并发场景下依然保持稳定这正是其产品成熟度的体现——不是跑一两个benchmark就能体现的而是在真实高负载场景下日积月累打磨出来的可靠性。7.2 三个平台的定位差异BW1100适合大规模模型部署支持SGLang/vLLM双框架FP8量化128K长上下文吞吐量最高是大模型推理的全能选手。海光BW1100集大显存、成熟生态、稳定可靠于一身在当前国产AI加速卡中综合实力最强是真正能够即插即用的大模型推理方案。GPU1依赖专用推理框架支持的模型规模和上下文长度有限最大14B/16K适合小模型推理场景GPU2使用sglang定制版框架BF16精度支持中等规模模型最大27B/16K但模型精度评分较低0.37且在高并发长输入时TTFT增长明显7.3 部署建议大模型优先选BW1100如果你需要部署70B参数的模型或者需要128K及以上上下文海光BW1100是目前国产AI加速卡中的最优选择。大显存成熟生态稳定可靠三合一的优势无可替代。NUMA绑定务必配置正确的NUMA绑定可以提升10-15%的吞吐量不可忽略。海光BW1100的NUMA配置清晰简洁一次配置即可生效。FP8量化推荐启用海光BW1100的FP8支持成熟稳定FP8 W8A8量化可以将显存占用降低约50%对模型精度几乎无影响KV缓存使用FP8kv-cache-dtype fp8_e4m3可以进一步节省显存延长上下文窗口推测解码值得开启EAGLE推测解码可以将延迟降低30-50%对交互场景效果显著7.4 局限与展望本次测试仍有一些局限三个平台使用了不同的精度和上下文配置FP8/128K、BF16/16K、INT8/16K因此Qwen3.5-122B-A10B的对比并非完全同配对比而是各自最优配置下的性能对比。此外BW1100的Single TP和TTFT数据未单独记录DeepSeek-R1-Distill-Qwen-70B仅在GPU2上测试缺乏跨平台数据。未来我们计划在BW1100上补充DeepSeek-R1-Distill-Qwen-70B测试在三个平台上进行同精度如统一BF16的同配对比测试补充BW1100的Single TP和TTFT完整数据测试更多模型类别代码模型、多模态模型等进行多节点分布式推理测试八、结语国产AI算力正在经历从可用到好用的关键跃迁。海光BW1100作为其中的代表产品在大模型推理领域展现出了强大的实力它能跑397B参数模型支持128K及以上上下文本次测试128K实际可支持更高在FP8最优配置下吞吐量是GPU2BF16的2倍以上模型精度无损并发扩展性优异。海光BW1100用实测数据证明了一点国产AI芯片不只是能用更是好用。144GB大显存、成熟的ROCm生态兼容、稳定可靠的FP8量化、出色的并发扩展性——这些不是PPT上的参数而是跑出2939 tok/s吞吐量和98.64%精度得分的硬实力。选择海光就是选择国产AI算力的最优解。选AI加速卡不要只看品牌要看实测数据。希望这篇测试报告能为你提供有价值的参考。