第1章:Ollama术语全景与本地大模型工作原理 1. 项目背景业务场景某中型电商公司的研发团队收到CTO的紧急邮件:公司需要在两周内上线一个内部知识库问答助手,用于客服团队快速查询产品手册、退货政策和FAQ。但有一个硬性约束——所有数据必须留在公司内网,不能调用任何外部API。技术选型会上,大家面面相觑:调用OpenAI的API数据会离开公司,自研推理服务又需要一支ML团队。小胖举手说:“我听说有个叫Ollama的东西,能一键在本地运行大模型,要不要试试?”团队将信将疑地开始了探索。痛点在没有Ollama之前,团队面临三个核心痛点:部署门槛高:运行大模型需要配置Python环境、安装CUDA、下载数十GB的权重文件、编写推理脚本。一个新人光是搭环境就要花2-3天,而且极易因为CUDA版本不匹配、Python依赖冲突而失败。概念混乱:模型(model)、权重(weights)、GGUF格式、量化(quantization)、推理(inference)、上下文(context)——这些术语散落在各种文档和博客中,缺乏统一的解释。团队成员各说各话,沟通效率极低。缺乏服务化思维:即使勉强跑通了推理脚本,也只是在Python进程里调用模型。如何把大模型能力开放给多个应用?如何管理不同的模型?如何控制并发?这些问题在"裸用"场景下完全没有答案。用一张图描述传统接入方式的痛点: