服务化——FastAPI + 弹性伸缩,从“能跑“到“能扛住十万并发“ 前置知识:第19篇(vLLM 推理引擎)/ 基本的 Web 开发概念引言:模型只是起点,服务化是终点一个能跑的模型和能扛住十万并发的服务之间,差了一整个工程栈。模型能跑: python model.py "hello" ← 10 行代码 能服务化: FastAPI + vLLM + K8s + HPA + Prometheus + Grafana ← 工程体系这一篇不讲算法,不讲模型架构——我们聊工程最后一公里:怎么把模型变成稳定、可扩展、可监控的在线服务。一、Streaming 输出1.1 为什么必须用 Streaming?LLM 推理慢(生成 100 个 token 需要 5 秒),如果等全部生成完再返回,用户体验极差。指标非 StreamingStreaming首 token 延迟5.0 秒0.05