【学习笔记】大模型时代全景图:从 GPT 到 Claude/DeepSeek,一文看懂 LLM 演进史 一、为什么要做这个系列2026 年的当下如果你是一名工程师大概率已经无法回避这样的对话产品经理「咱们这个功能用 GPT-5 还是 Claude 4.7」老板「成本太高能不能换成开源的DeepSeek V4 行不行」运维「单卡跑不动 70B 啊要不要上 vLLM还是 SGLang」算法同学「这个场景要不要微调LoRA 够不够」每一个问题背后都是一个完整的技术栈。过去三年大模型从「OpenAI 的 ChatGPT」一种形态演化成今天这样6 家闭源巨头、十几个开源系列、上百个微调变体、五六个主流推理框架、十几种部署形态。一个普通的 AI 工程师仅仅是搞清楚现在都有什么就需要花费数周。更麻烦的是这个领域的知识衰减速度极快——半年前的最优实践今天可能已经被淘汰半年前红极一时的框架今天可能已经被另一个框架完全替代。任何想认真做大模型工程化的人都需要一份系统的、工程视角的、有判断的知识地图。这就是我写这个系列的初衷。《大模型知识与部署》系列共 35 篇会从最基础的演进史、Transformer 架构一路写到推理优化、分布式部署、Agent 应用、MoE 与推理模型等前沿话题。每一篇都按工程视角组织——少讲抽象理论多讲落地决策多讲踩坑经验。而你正在读的这第一篇是整个系列的全景图——读完它你将得到一条清晰的大模型演进时间线一张从训练到部署到应用的全链路技术地图一份当下开源 vs 闭源的格局判断一张后续 34 篇的导航图我们开始。二、为什么我们需要一份「全景图」2.1 大模型已经不是黑盒玩具2023 年初大多数工程师对 LLM 的认知还停留在「调 OpenAI 的 API」。两年过去情况发生了根本变化训练侧开源权重唾手可得从 0.5B 到 671B 一应俱全LoRA 微调成本降到几百美元。推理侧vLLM、TGI、TensorRT-LLM、SGLang 等高性能引擎让一张 H100 能撑住几百 QPS。应用侧RAG、Agent、Tool Use、MCP 协议……让 LLM 真正长出手脚。这意味着大模型已经从调用别人 API变成了自建基础设施。一个完整的大模型工程栈复杂度不亚于一套微服务系统涉及到模型权重管理与版本控制GPU 集群与显存调度分布式推理与负载均衡上下游的向量库、Agent 框架、可观测性持续迭代的微调、对齐、评测流水线这套栈的复杂度超出了AI 算法一个岗位能涵盖的范围注定要靠算法 工程 运维协同来落地。所以工程师必须懂——不止于 prompt而是从训练到部署到应用的完整链路。2.2 工程师面对的真实困境把日常工作中常见的几类问题列出来你就会理解为什么需要一份全景图困境类型典型问题知识需求选型困境用闭源 API 还是开源自部署7B 够不够要不要 MoE模型能力对比、参数规模认知、上下文需求部署困境vLLM 还是 SGLang单卡还是多卡TP 还是 PP推理框架对比、并行策略、显存计算成本困境H100 一卡难求A100 够用吗4090 能跑吗GPU 选型、量化技术、Continuous Batching微调困境业务效果不够是要 RAG 还是微调LoRA 还是全参RAG vs 微调决策、SFT 与 DPO 区别应用困境做 Agent 还是工作流用 LangChain 还是自研Agent 架构、Tool Use、MCP 生态每一类困境单独拎出来都能写一本书。但碎片化地学往往学完仍然不会做决策——因为缺一张全景图看不到这些技术点彼此之间的位置关系。2.3 信息半衰期六个月大模型领域最致命的一点知识半衰期约为六个月。2023 年的最佳推理框架是 TGI2024 年是 vLLM2025 年开始 SGLang 后来居上。2023 年的微调王者是 LoRA2024 年 QLoRA 几乎成为默认2025 年 DPO 又替换了相当一部分 RLHF 流程。2024 年还在卷参数规模DeepSeek V3 671B2025 年开始卷推理时间o1/R1/Claude 4 Thinking。这就要求我们不能只学当下的事实更要理解事实背后的逻辑与演进方向。这也是为什么本系列的开篇要花大力气讲演进史——搞清楚我们从哪里来才能判断我们要到哪里去。三、八年演进史从 Transformer 到推理模型3.1 时间线一览2017 Transformer 论文 ────────────── 序列建模脱离 RNN 2018 GPT-1 / BERT ──────────────── 预训练-微调范式确立 2019 GPT-2 (1.5B) ──────────────── 太危险不敢开源的传说 2020 GPT-3 (175B) ──────────────── Scaling Law 与 In-Context Learning 2022.11 ChatGPT 上线 ─────────── RLHF 让 LLM 走入大众 2023.02 LLaMA-1 开源 ────────── 开源大模型生态启动 2023.03 GPT-4 / Claude-1 ────── 多模态与 100K 上下文 2023.07 Llama 2 商用 ────────── 真正可商用的开源底座 2023 下半年 Qwen / DeepSeek 开源 ─ 中国开源力量入场 2024.03 Claude 3 ──────────── 200K 上下文,首次反超 GPT-4 2024.04 Llama 3 ─────────────── 开源逼近 GPT-4 2024.05 GPT-4o ─────────────── 端到端多模态 2024.09 o1 预览 ─────────────── Test-Time Scaling 新范式 2024.12 DeepSeek V3 (671B MoE) ── 极致性价比震动行业 2025.01 DeepSeek R1 开源 ───── 推理模型平民化 2025 上半年 Claude 4 / GPT-4.5 ─── 推理 Agent 能力升级 2025.10 Haiku 4.5 ─────────── 小模型也能强推理 2026 当下 Claude Opus 4.7 / 1M 上下文 ── 进入Agent 长上下文主战场下面我们挑关键节点展开。3.2 起点Transformer 的诞生20172017 年 6 月Google Brain 发表《Attention is All You Need》。这篇论文最大的工程贡献不是提出了 attention 机制attention 此前已存在而是抛弃了 RNN 的循环结构让序列建模可以完全并行化。工程意义有三点1训练可以堆 GPU——RNN 时代单卡训不动大模型Transformer 可以做大规模数据并行。2推理也能并行——后来推理优化中的 KV Cache、PagedAttention 都建立在 attention 的可重用性之上。3架构高度统一——CV、NLP、语音、多模态最终都收敛到 Transformer 家族。 这就是为什么本系列第 2 篇会专门写《一文读懂 Transformer》——它是后续所有内容的地基。3.3 预训练范式确立2018-2020Transformer 提出后很快诞生了两条不同的路线BERT 路线Encoder-onlyGoogle 提出擅长理解类任务分类、抽取。GPT 路线Decoder-onlyOpenAI 提出擅长生成类任务。事后看Decoder-only 赢得了一切。原因有二自回归生成的统一性让 LLM 可以做几乎所有 NLP 任务以及 GPT-3 引爆的 Scaling Law——只要参数足够大、数据足够多模型能力会持续提升。2020 年 GPT-3 发布时只有 175B 参数却展示了惊人的 In-Context Learning 能力不再需要微调只要在 prompt 里给几个例子模型就能学会。这一刻起prompt engineering 成为新职业。3.4 ChatGPT 引爆点2022.112022 年 11 月 30 日ChatGPT 上线。两个月后月活破亿成为史上增长最快的消费级产品。ChatGPT 的核心技术贡献是RLHF人类反馈强化学习用人类偏好数据训练一个奖励模型再用 PPO 算法让 LLM 朝着人类喜欢的回答优化。这让 LLM 第一次从会接话变成会对话。工程角度的影响对齐成为大模型工程的核心环节训练→对齐→部署成为标准流水线。API 调用从 to-dev 变成 to-everyone倒逼了云推理服务的工程化。AI 应用层出现LangChain、LlamaIndex 等框架快速崛起。3.5 群雄并起20232023 年是大模型历史上信息密度最高的一年3 月GPT-4 发布首次具备多模态视觉理解能力同月 Anthropic 发布 Claude 1提出宪法 AI对齐思路。2 月Meta 发布 LLaMA-1仅研究用途却被全网魔改DIY 开源生态全面启动。7 月Llama 2 商用开源真正点燃了开源大模型的产业落地。下半年阿里 Qwen、深度求索 DeepSeek、智谱 ChatGLM、零一 Yi、百川 Baichuan 集中发布。中国开源力量正式入场。这一年留下的工程遗产至关重要开源模型从此可以商用自部署成为现实选项上下文窗口从 4K 扩展到 100KClaude 1Long Context 工程问题开始受关注多模态成为标配。3.6 性能与成本双向奔赴2024如果 2023 年是卷能力2024 年就是卷成本与可用性Claude 33 月Opus 模型首次在多个评测中反超 GPT-4且原生支持 200K 上下文。Llama 34 月8B 模型超越上一代 70B开源逼近闭源 SOTA。GPT-4o5 月原生端到端多模态延迟降到人类对话级别~300ms。DeepSeek V312 月671B MoE 模型仅用 557 万美元训练成本直接重塑了行业对训练成本的认知。工程意义1.上下文长度的军备竞赛从 4K → 32K → 100K → 200K → 1M。这背后是 Flash Attention、YaRN、Ring Attention 等一系列推理优化技术。2.MoE 架构成为主流DeepSeek V3、Mixtral、Qwen MoE 都证明了稀疏激活可以在保持效果的同时大幅降低推理成本。3.小模型崛起Phi-3、Gemma、Qwen 2 的小尺寸版本展示了端侧大模型的可能性。3.7 推理模型的拐点2024 末 - 20252024 年 9 月OpenAI 发布 o1-preview开启**推理模型Reasoning Model**新范式传统 LLM一次性生成回答依赖训练时学到的知识。推理模型先生成大段内部思考链再给出最终答案用推理时算力换准确率。这就是Test-Time Scaling——在推理阶段花更多 Token、更多时间换更高质量的输出。2025 年 1 月DeepSeek R1 开源让推理模型的训练方法GRPO 算法 大规模 RL公开化平民化。Claude 4 系列、Gemini 2.5 也都加入了思考模式。工程意义延迟模型重构从秒级响应变成分钟级深度思考需要新的工程架构流式输出、异步任务、思考过程可见性。算力分配变化训练算力占比下降推理算力占比上升。评测体系变化基准从 MMLU 转向 AIME、SWE-Bench 等真正考察推理能力的任务。3.8 当下2026 年的格局到2026 年 5 月主要趋势已经清晰1M 上下文成为标配Claude Opus 4.7、Gemini 2.5 Pro 都支持 1M Token 上下文。Agent 走向生产Tool Use、Computer Use、MCP 协议成熟Agent 真正开始替代部分人力工作。多模态原生化图像、音频、视频统一进入 Token 化处理。开源闭源差距缩小但未消除DeepSeek、Qwen、Llama 4 与 GPT-5、Claude 4.7 的能力差距约为 6-12 个月。这就是我们今天的起点。四、技术全景从训练到应用的六大环节下面这张图是整个大模型技术栈的骨架┌─────────────────────────────────────────────────────────────┐ │ 原始语料 (Raw Data) │ └──────────────────────────────┬──────────────────────────────┘ │ ┌──────────────▼──────────────┐ │ ① 预训练 Pre-Training │ → 系列 06 │ 万卡集群 Scaling Law │ └──────────────┬──────────────┘ │ ┌──────────────▼──────────────┐ │ ② 微调 Fine-Tuning │ → 系列 07/09/10 │ SFT / LoRA / QLoRA │ └──────────────┬──────────────┘ │ ┌──────────────▼──────────────┐ │ ③ 对齐 Alignment │ → 系列 08 │ RLHF / DPO / GRPO │ └──────────────┬──────────────┘ │ ┌──────────────▼──────────────┐ │ ④ 推理优化 Inference Opt. │ → 系列 11-15 │ KV Cache / 量化 / Flash Attn│ └──────────────┬──────────────┘ │ ┌──────────────▼──────────────┐ │ ⑤ 部署服务化 Serving │ → 系列 16-20重点 │ vLLM / SGLang / 分布式 │ └──────────────┬──────────────┘ │ ┌──────────────▼──────────────┐ │ ⑥ 应用生态 Applications │ → 系列 26-30 │ RAG / Agent / Tool Use │ └─────────────────────────────┘下面我们逐层拆解每一层都对应后续系列的若干篇文章。4.1 第一层预训练Pre-Training核心问题怎么从海量原始文本中学到通用语言能力预训练是大模型的地基决定了模型的能力上限。数据万亿 Token 级别涵盖网页CommonCrawl、书籍、代码GitHub、学术arXiv等。质量、配比、去重是核心难点。算力千卡到万卡 GPU 集群训练周期数周到数月。关键理论Scaling LawOpenAI, 2020模型能力 ∝ 算力^αChinchilla 定律DeepMind, 2022算力固定时参数与数据应等比例增长工程上最大的挑战是分布式训练的稳定性——万卡集群每天都有 GPU 故障需要 Checkpoint 容错、自动迁移、健康检查。 详见系列第 6 篇预训练全流程4.2 第二层监督微调SFT核心问题怎么让通用模型适应特定任务/领域预训练完的基座模型只会接话不会对话或按指令做事。SFT 通过高质量指令数据让模型学会响应格式。全参微调Full FT效果上限高但成本高70B 模型需 8×H100。LoRA / QLoRA只训练少量适配器参数成本降 10-100 倍是目前最主流的方案。MoE 微调DeepSeek MoE 等模型有特殊微调策略。工程师视角的关键判断80% 的业务场景不需要全参微调LoRA 高质量数据足矣。剩下 20% 真正需要模型重写知识的场景再上 QLoRA 或全参。 详见系列第 7 篇SFT 微调实战4.3 第三层对齐Alignment核心问题怎么让模型的输出符合人类偏好有用、无害、诚实对齐是 ChatGPT 成功的关键也是商业化模型必须做的环节。方法提出时间复杂度当下地位RLHF (PPO)2022高仍是闭源大厂主选DPO2023中开源社区主流GRPO2024 (DeepSeek R1)高推理模型新主流DPO 把 RLHF 从三阶段流程SFT RM PPO简化为一阶段优化大幅降低了开源团队的对齐成本是近两年最重要的工程贡献之一。 详见系列第 8 篇RLHF 与 DPO4.4 第四层推理优化Inference Optimization核心问题怎么让大模型在生产环境跑得又快又省这是整个系列最贴近后端工程师日常的部分。核心技术包括技术解决什么问题量级提升KV Cache避免重复计算历史 Token 的 K/V2-10×PagedAttention(vLLM)显存碎片导致的浪费2-4× 吞吐Continuous Batching静态 Batching 的 GPU 空闲5-10× 吞吐Flash AttentionAttention 计算的 IO 瓶颈2-4×量化INT8/INT4显存与算力消耗2-4×投机解码(Speculative Decoding)串行解码的延迟2-3×一个直观的数字用裸 Transformers 库跑 Llama-70B单 H100 大概 10 tokens/s用 vLLM INT8可以做到 1000 tokens/s 的吞吐多请求并发。性能差距100 倍。 详见系列第 11-15 篇推理优化模块4.5 第五层部署服务化Serving核心问题怎么把模型变成稳定可调用的 API 服务这是整个系列的重点模块因为这是AI 工程师区别于AI 算法工程师的核心战场。主流推理框架2026 年框架主要厂商优势适用场景vLLMUC Berkeley易用、社区活跃、PagedAttention通用首选SGLangLMSYS复杂控制流、JSON 模式Agent / 结构化输出TensorRT-LLMNVIDIA极致性能生产追求极限TGIHuggingFaceHF 生态融合好HF 体系内部署Ollama社区一行命令本地起开发 / 个人分布式推理的并行策略TPTensor Parallel单层算子拆到多卡适合大模型 高带宽互联。PPPipeline Parallel不同层放到不同卡适合跨节点。EPExpert ParallelMoE 专家分布式适合超大模型。 详见系列第 16-20 篇部署服务化模块系列重头戏4.6 第六层应用生态Applications核心问题怎么让大模型真正产生业务价值到这一层我们终于把模型变成了产品。当下的主流形态RAG检索增强生成解决知识时效性与私域数据问题。从朴素 RAG → Hybrid RAG → GraphRAG。Function Calling / Tool Use让模型能调外部工具访问实时数据、执行代码。Agent多步骤决策 工具调用 记忆自主完成复杂任务。多模态应用图文理解、文档智能、语音交互。工程角度的关键认知LLM 自己不是产品LLM 检索 工具 工作流才是产品。这是为什么 Agent 框架LangChain、LlamaIndex、AutoGen、CrewAI会成为新一代基础设施。 详见系列第 26-30 篇应用生态模块五、开源 vs 闭源2026 年的格局判断这是工程师做技术选型时最常被问的问题。我们直接上结论再展开。5.1 当下主要玩家闭源四强按综合能力仅作参考模型家族代表型号优势典型短板ClaudeAnthropicOpus 4.7 / Sonnet 4.6Agent 与代码能力顶尖长上下文1M质量好推理速度偏慢GPTOpenAIGPT-5 / o3推理能力o 系列、生态最广价格中高GeminiGoogle2.5 Pro / Flash原生多模态、长上下文便宜文字质量略弱GrokxAIGrok 3实时数据集成工程化能力弱开源四强模型家族代表型号优势典型短板LlamaMetaLlama 4生态最广、工具链完善中文一般Qwen阿里Qwen 3-72B / Qwen MoE中文最强、尺寸完整0.5B-110B部分场景泛化弱DeepSeek深度求索V4 / R2极致性价比、推理能力强训练数据偏技术向MistralMixtral / Magistral欧洲合规、MoE 设计成熟中文一般中国其他主要力量智谱 GLM、零一 Yi、百川 Baichuan、KimiMoonshot、阶跃 Step、MiniMax。5.2 选型决策表不同场景下的实战推荐场景推荐路线理由MVP 验证 / 创业初期Claude / GPT API速度第一省运维成本大流量 ToC对延迟敏感Gemini Flash / 自部署 Qwen 2.5-32B单 Token 成本低私有数据合规第一自部署 Qwen / Llama / DeepSeek数据不出域极致成本压缩自部署 DeepSeek / Qwen MoE性价比Code 助手Claude Sonnet / DeepSeek-Coder代码能力强多模态客服Gemini / GPT-4o原生多模态长文档处理200KClaude / Gemini长上下文质量好Agent / 自动化Claude / GPT o3Tool Use 稳离线 / 端侧 / 边缘Qwen 3B / Phi-4 / Gemma小模型行业垂直微调开源底座 LoRA闭源不支持5.3 一个被低估的判断很多人争论开源能不能追上闭源。从工程师视角更有用的判断是开源与闭源的差距已经从「能力代差」变成了「时间差」——开源平均比闭源滞后 6-12 个月达到同等能力。这意味着对于前沿能力刚需如需要 SOTA 推理、复杂 Agent的业务闭源仍是必选项。对于当下足够用的业务绝大多数 ToB / ToC 场景开源完全可以承接且能省下 80% 的 API 费用。一个合理的工程团队策略是API 先跑开源后接——用闭源 API 快速验证产品形态跑通后再迁移到自部署开源模型降低成本。这也是为什么本系列把部署与服务化作为重点模块来写。六、系列预告与导航35 篇怎么读系列共分七个模块、35 篇。下面是完整目录和推荐阅读路径。6.1 七大模块速览模块篇数核心问题一、入门认知5 篇LLM 是什么关键概念有哪些二、训练与微调5 篇怎么训练一个 LLM怎么微调三、推理优化5 篇怎么让推理更快更省四、部署服务化5 篇怎么把模型变成生产 API五、工程实践5 篇集群运维、成本、监控怎么做六、应用生态5 篇RAG / Agent / 多模态怎么落地七、前沿与思考5 篇MoE / 推理模型 / 端侧 / 安全6.2 完整目录35 篇-----------------------------------------------------------------------------一、入门认知篇1. 大模型时代全景图本篇2. 一文读懂 Transformer从 Attention 到 LLM 的核心架构3. 模型参数解密7B、13B、70B、671B 到底意味着什么4. Tokenizer 那些事BPE、SentencePiece 与中文分词5. 上下文窗口的秘密从 4K 到 1M 的技术演进二、训练与微调篇6. 预训练全流程数据、算力、Scaling Law 实战拆解7. SFT 微调实战LoRA / QLoRA / 全参微调对比8. RLHF 与 DPO让模型对齐人类偏好的两条路径9. 垂直领域大模型行业微调实战指南10. 训练数据工程高质量数据的构建与清洗三、推理优化篇11. 推理加速三板斧KV Cache、PagedAttention、Continuous Batching12. 量化压缩实战INT8 / INT4 / AWQ / GPTQ 全面对比13. Flash Attention 原理与实践14. 投机解码让大模型推理快 2 倍15. 长上下文优化YaRN、Ring Attention 详解四、部署与服务化篇系列重点16. vLLM 部署实战从单卡到多卡的高性能服务17. 推理框架横评vLLM / TGI / TensorRT-LLM / SGLang18. 本地化部署Ollama 与 LM Studio 轻量方案19. OpenAI 兼容 API服务化接口实现20. 分布式推理TP / PP / EP 并行策略五、工程实践篇21. GPU 选型指南A100 / H100 / 4090 / 910B 性价比22. 集群运维监控、调度、容灾全攻略23. 模型权重管理Safetensors 与私有化 Hub24. 显存优化实战从 OOM 到丝滑运行25. TCO 成本测算训练与推理成本模型六、应用生态篇26. RAG 实战从向量数据库到 GraphRAG27. Function Calling / Tool Use让模型动起来28. Agent 框架对比LangChain / LlamaIndex / AutoGen29. 多模态部署VLM、语音、视频理解30. Prompt 工程方法论七、前沿与思考篇31. MoE 架构深度解析DeepSeek、Mixtral 背后的稀疏化32. 推理模型o1 / R1原理Test-Time Scaling 新范式33. 端侧大模型Phi、Gemma 与小模型逆袭34. 开源 vs 闭源Llama / Qwen / DeepSeek 生态博弈35. 大模型安全越狱、提示注入与防御-----------------------------------------------------------------------------6.3 推荐阅读路径根据你的角色可以走不同路径。 新手快速入门路径约 10 篇01本篇→ 02 Transformer → 03 参数解密 → 16 vLLM 部署 → 18 Ollama → 26 RAG → 27 Tool Use → 28 Agent 部署工程师路径约 12 篇01 → 11 推理加速 → 12 量化 → 16 vLLM → 17 框架横评 → 19 API 服务化 → 20 分布式 → 21 GPU 选型 → 22 集群运维 → 24 显存优化 算法工程师路径约 12 篇01 → 02 → 06 预训练 → 07 SFT → 08 RLHF/DPO → 09 垂直微调 → 11 → 13 Flash Attn → 14 投机解码 → 31 MoE → 32 推理模型 技术决策者路径约 8 篇01 → 03 参数 → 17 框架横评 → 21 GPU 选型 → 25 TCO 成本 → 34 开源闭源 → 35 安全6.4 更新计划本系列预计每周 4-6 篇每篇约 5000-8000 字两个个月内完成。重点模块部署服务化会优先放出。七、结语大模型不是魔法是可解构的工程系统写到这里希望你已经建立起了一个基本的心智模型大模型不是一个黑盒 API而是一个包含训练、对齐、推理、部署、应用的完整工程栈。这个栈的每一层都有具体的工程挑战、典型方案、踩坑经验。闭源与开源不是非此即彼的选择而是互补的工具——选对场景每一个都能发挥最大价值。参考文献大模型时代全景图从 GPT 到 Claude/DeepSeek一文看懂 LLM 演进史