第二篇 大模型应用基础通识 第二篇 大模型应用基础通识本篇定位所有AI应用开发岗位的通用前置基础是RAG、Agent开发的底层必修课属于必拿分的基础题面试占比约15%。侧重应用层理解不深挖算法推导重点掌握落地能用的核心知识。2.1 大模型基础原理应用层必备核心题1必须掌握的5个核心基础概念背诵要点Token令牌大模型处理文本的最小单位不是字也不是词是分词后的子词片段1个中文汉字约等于1.3-1.5个Token英文1个单词约1.3个Token所有计费、上下文长度、输出限制都以Token为单位上下文窗口Context Window模型单次能处理的最大Token长度包含输入输出窗口越大能承载的历史对话、参考资料越多但推理成本越高、速度越慢不是越长越好长上下文会稀释关键信息增加幻觉概率采样参数温度Temperature、TopP、TopK控制输出随机性的三个核心参数共同决定模型创造性温度0-2之间值越低输出越确定、越保守值越高越随机、越有创意TopP核采样只从累计概率达到P的候选词里选值越小越保守落地经验问答/工具调用场景设0.1-0.3创意写作设0.7-1.0Embedding向量嵌入把文本转换成固定维度的数值向量让计算机可以计算语义相似度语义相近的文本向量距离更近语义不同的文本向量距离更远是向量检索、语义匹配、聚类、分类等场景的基础幻觉Hallucination模型生成看似合理但实际虚假、错误的信息是大模型的固有特性表现形式编造事实、虚构数据、错误引用、无中生有无法彻底消除只能通过RAG、Prompt约束、事实校验等手段降低概率核心题2从应用视角理解Transformer的核心思想背诵要点Transformer是当前所有大模型的基础架构核心机制是自注意力机制自注意力的作用让模型在处理每个词时都能关注到上下文中其他相关的词理解上下文关联和语义依赖应用层三个关键结论并行计算能力强训练和推理效率远超之前的循环神经网络长距离语义理解能力强能很好地捕捉长文本中的逻辑关联上下文长度是核心指标注意力计算量随长度平方增长越长成本越高应用开发无需深入推导反向传播理解能力边界和成本特性即可核心题3大模型的能力边界与常见局限性背诵要点擅长的事语义理解、内容生成、逻辑推理、信息总结、格式转换、代码生成基于已有信息做整合、重组、润色遵循指令完成结构化、标准化任务不擅长/做不到的事无法获取实时、私有、最新的信息内置知识有截止日期无法直接操作外部系统必须通过工具调用间接实现事实准确性不可靠存在幻觉不能直接作为高风险场景的唯一依据复杂数学计算、精确数值运算能力弱需要借助计算器工具无法感知真实世界没有真正的主观意识和情感落地启示不要让模型做它不擅长的事信息获取靠检索、精确计算靠工具、高风险场景加人工校验用工程手段弥补模型短板。高频追问温度和TopP有什么区别一般怎么搭配使用温度调整整体随机度TopP控制候选词范围两者共同作用一般不同时调极端值生产常用方案固定TopP0.9只调整温度来控制输出风格上下文窗口越大越好吗不是。窗口越大成本越高、速度越慢长上下文存在「Lost in the Middle」现象中间信息召回率低够用即可优先通过检索、摘要等方式提升信息密度而不是盲目堆长窗口Embedding模型和生成大模型是什么关系两者是独立的两类模型生成模型负责输出内容Embedding模型负责把文本转向量一般搭配使用但不强制绑定可以用不同厂商的模型组合同一语义空间的模型搭配检索效果更好2.2 Prompt工程核心体系核心题1Prompt四大核心基础技巧背诵要点角色设定开头明确给模型分配专业角色限定身份和领域作用锚定模型的知识边界和表达风格提升输出专业度示例你是一名资深Java后端开发工程师只回答技术相关问题。结构化指令用清晰的结构说明任务要求、输出规则、约束条件核心三要素任务目标、输出要求、禁止事项多用序号、分隔符、标题划分模块比大段文字效果好少样本示例Few-shot给模型2-3个输入输出的完整例子比纯文字描述更易对齐预期适用场景格式要求严格、输出标准统一、规则复杂的任务注意示例要覆盖典型场景和边界情况质量比数量重要思维链引导CoT要求模型一步步思考先推理再给结论作用显著提升逻辑推理、数学计算、复杂分析的准确率常用话术请一步步分析先给出思考过程再输出最终答案。核心题2系统提示System Prompt设计原则背诵要点系统提示是全局约束决定Agent的行为边界设计遵循5个原则角色清晰明确定位、能力范围、服务对象边界明确说清楚能做什么、不能做什么超出范围怎么处理规则前置核心规则放在最前面优先级最高的规则重点强调格式统一规定输出结构、引用规范、拒答话术安全兜底加入防注入、防越权、幻觉防控的基础约束生产级系统提示标配结构角色定位 → 核心能力 → 输出规范 → 安全约束 → 拒答规则核心题3输出格式控制的常用方法背诵要点按稳定程度从低到高排序Prompt指令约束文字描述输出格式最简单但稳定性一般适合非严格场景少样本示例给出格式样例效果优于纯文字描述结构化输出参数调用模型API时指定JSON模式、函数调用格式模型强制按Schema输出稳定性高后置正则校验输出后用规则校验、修正格式作为兜底Function Calling复用把输出封装成工具返回的格式利用工具调用的强约束性落地经验严格结构化场景优先用模型原生的结构化输出能力配合后置校验兜底不要只靠Prompt。核心题4生产级Prompt怎么管理背诵要点不能硬编码在代码里要做体系化管理版本化管理每次修改生成新版本保留变更记录支持一键回滚每个版本配套效果评估数据可对比优劣配置化托管存在配置中心或Prompt管理平台支持热更新不用发版就能生效按场景、业务线拆分避免互相干扰灰度发布新版本Prompt先切小流量验证指标达标后再全量配套A/B测试用数据验证优化效果配套用例每个Prompt版本绑定对应的测试用例集修改后自动跑回归高频追问Prompt写得越长效果越好吗不是。过长的Prompt会稀释关键信息增加模型忽略规则的概率核心规则前置、简洁明确比冗长堆砌效果好复杂规则配合少样本比纯文字描述高效思维链是不是所有场景都能用不是。简单问答、分类、提取类任务不需要反而会增加输出长度和成本适合数学推理、逻辑分析、复杂问题拆解、故障排查等需要深度思考的场景怎么快速判断是Prompt问题还是模型能力问题换更强的模型测试如果效果变好大概率是模型能力不足换更详细的Prompt、加示例后效果变好大概率是Prompt问题模型能理解规则但做不对是能力问题根本没遵守规则大概率是Prompt没写清楚2.3 LLM调用工程核心题1一次完整的LLM API调用闭环是什么背诵要点从请求到返回的完整7步流程输入预处理用户输入清洗、敏感词校验、Prompt组装鉴权限流校验API Key、检查调用频次、配额校验请求封装拼装模型参数温度、max_tokens、上下文等调用模型接口模型推理大模型服务端执行推理生成结果结果接收接收模型返回处理流式/同步响应后置校验内容安全审核、格式校验、事实性校验日志埋点记录输入输出、Token消耗、耗时、错误码用于计费、监控、排查核心题2流式输出SSE的实现原理与价值背诵要点定义基于SSE服务器推送事件协议服务端逐Token推送结果给前端实现打字机效果原理HTTP长连接服务端持续推送数据块前端逐段渲染无需轮询核心价值大幅降低用户感知等待时长首字返回即可开始阅读体验远好于同步等待完整结果适用场景对话、写作、长内容生成等用户实时等待的场景注意点需要处理连接中断、异常重连、最终结果落库等问题核心题3为什么需要多模型统一封装常用方案有哪些背诵要点核心原因屏蔽不同厂商的接口差异业务代码不用适配多套API灵活切换模型同一份业务逻辑可以快速更换底层模型统一管控鉴权、限流、缓存、日志、计费降低重复开发方便做降级容灾主模型故障自动切备用模型常用方案LiteLLM轻量开源库支持上百种模型Python生态友好入门首选OneAPI开源API网关支持管理多渠道密钥、配额分发适合团队使用自研封装大型团队基于自身需求定制灵活度最高核心题4LLM调用的成本优化手段有哪些背诵要点按性价比从高到低排序分级模型路由简单任务分类、提取、润色用小模型复杂任务推理、长文生成用大模型收益成本降低40%-60%是性价比最高的优化手段结果缓存高频重复问题直接返回缓存结果不调用大模型适用FAQ、标准问答、固定格式生成等场景Token裁剪合理设置max_tokens避免无意义的长输出上下文去重、压缩剔除无关信息减少输入TokenPrompt精简去掉冗余话术保留核心规则减少系统提示长度批量处理非实时任务批量调用提升吞吐降低单位成本核心题5怎么做LLM调用的容灾降级背诵要点五层兜底机制保障服务可用性备用模型降级配置主备模型主模型调用失败、超时、限流时自动切换备用模型建议至少配置1个国产1个不同厂商的备用超时熔断设置合理的超时时间避免长时间阻塞业务线程连续失败触发熔断快速返回失败避免雪崩降级策略高并发时非核心场景降级为简化版回答、关闭长文本生成极端情况返回预设兜底话术保证服务不挂重试机制网络波动、偶发错误自动重试配合指数退避注意只对幂等的生成类请求重试有副作用的操作不能乱重试流量削峰突发流量进入队列排队避免瞬间打满模型配额高频追问LLM缓存怎么设计有什么注意事项缓存Key对问题做归一化去标点、转小写、同义词替换后生成哈希缓存粒度完整答案缓存、Embedding结果缓存、召回结果缓存注意事项权限隔离不同租户、不同权限的缓存不能互通设置合理TTL避免知识过期风险缓存污染错误答案被缓存后持续扩散要有更新和失效机制怎么选择超时时间设置多久合适没有固定值按场景定简单问答3-5秒长文本生成15-30秒原则99分位的正常请求能完成同时避免异常请求长时间占用资源配合流式输出首字超时和整体超时分开设置体验更好多模型网关会不会成为性能瓶颈网关只做转发和协议转换计算量很小一般不会成为瓶颈高并发场景注意做好连接池、异步处理避免单点故障生产部署多实例保证高可用2.4 主流模型选型指南核心题1海外模型与国产模型的核心对比与选型背诵要点从四个核心维度对比维度海外主流模型GPT系列、Claude系列国产主流模型通义千问、文心一言、智谱GLM、DeepSeek能力上限综合能力、复杂推理、长上下文处理更强头部模型已接近海外第一梯队通用场景差距不大成本单价更高加上网络成本综合成本高价格更低同能力下成本约为海外的1/3-1/2合规性数据出境风险不符合国内数据合规要求数据在国内符合等保、数据安全法要求生态适配工具调用、生态完善新特性跟进快中文理解、本土化场景适配更好国内服务支持更及时选型原则面向国内用户、企业内部系统、数据敏感场景优先选国产模型复杂推理、国际化业务、无数据合规风险可选择海外模型生产级建议至少兼容2家以上厂商避免单一依赖核心题2大小模型怎么选型背诵要点大模型百亿参数以上适用场景复杂推理、深度分析、长文生成、多轮规划、代码开发作为调度大脑负责Agent的规划、决策、整合对输出质量要求高、容错率低的场景小模型7B-34B参数适用场景分类、提取、摘要、润色、简单问答等标准化任务作为执行层处理单一简单任务降低成本高并发、低延迟要求的场景本地化、私有化部署算力有限的场景落地最佳实践分层架构上层用1个强推理大模型做全局规划和最终整合下层用多个小模型执行具体子任务系统自动判断任务复杂度路由到对应模型在保证效果的前提下最大程度降低成本核心题3典型业务场景的模型选型建议背诵要点企业知识库问答优先选中文能力好、长上下文稳定的国产模型搭配轻量Embedding模型检索生成分离智能客服简单咨询用小模型降本复杂问题升级大模型重点关注可控性、拒答能力、格式稳定性Agent/工具调用优先选Function Calling能力稳定的模型规划能力强的模型更适合做Agent大脑代码开发助手优先选代码能力强的模型海外模型整体有优势国产DeepSeek、通义千问代码版也能满足大部分场景内容创作、文案生成创意要求高选大模型批量标准化生成立用小模型重点关注风格可控性、输出稳定性高频追问效果不好时先优化Prompt还是换更大的模型优先优化Prompt、检索、工程侧成本低、见效快工程优化到瓶颈后再考虑换更大的模型很多时候效果差不是模型能力不够是Prompt、上下文、检索没做好开源模型和闭源API怎么选闭源API开箱即用、无需运维、能力上限高适合快速落地、中小团队开源模型数据不出域、可定制、长期成本低适合数据敏感、大规模、有运维能力的团队选型核心有没有私有化部署需求、有没有定制微调需求、有没有足够的运维算力怎么评估一款模型适不适合自己的业务不要只看排行榜分数用自己的业务场景数据做实测核心指标业务任务准确率、输出稳定性、速度、成本选3-5款候选模型用同一批测试用例跑对比用数据说话