服务化——FastAPI + 弹性伸缩，从“能跑“到“能扛住十万并发“

发布时间：2026/7/5 13:50:30

前置知识：第19篇（vLLM 推理引擎）/ 基本的 Web 开发概念引言：模型只是起点，服务化是终点一个能跑的模型和能扛住十万并发的服务之间，差了一整个工程栈。模型能跑: python model.py "hello" ← 10 行代码能服务化: FastAPI + vLLM + K8s + HPA + Prometheus + Grafana ← 工程体系这一篇不讲算法，不讲模型架构——我们聊工程最后一公里：怎么把模型变成稳定、可扩展、可监控的在线服务。一、Streaming 输出1.1 为什么必须用 Streaming？LLM 推理慢（生成 100 个 token 需要 5 秒），如果等全部生成完再返回，用户体验极差。指标非 StreamingStreaming首 token 延迟5.0 秒0.05