分布式训练通信优化分层式精讲:All-Reduce、Ring-AllReduce、NCCL 与 DDP/FSDP 重叠(分层式精讲) 核心结论:通信优化不是把 All-Reduce 讲成一个“中心枢纽”,而是理解不同 collective 的通信量、延迟、拓扑和重叠边界。DDP 主要通过 gradient bucket + all-reduce overlap 提升效率;FSDP/ZeRO 通过 reduce-scatter/all-gather 降低训练状态复制;NCCL 会按拓扑和消息大小选择 ring/tree/hierarchical 等算法。默认不要手写 Ring 或激进梯度压缩,先用成熟框架和 profiler 找瓶颈。第 0 层:30 秒理解分布式训练常见通信分三类:DDP: 梯度 all-reduce FSDP / ZeRO: reduce-scatter + all-gather Tensor Parallel: all-reduce / all-gather / reduce-scatter Pipeline Parallel: point-to-point send/recv通信优化优先级:/