【训练”一个 Skill“】 1. 引言在构建基于大语言模型LLM的应用时我们经常需要将模型的能力固化为一个可复用的“技能”Skill。这里的“训练”绝大多数情况下并不是指微调模型本身而是通过提示词工程、示例和工具定义让模型在特定场景下稳定、可靠地工作。本文将分享在生产环境中“训练”一个 Skill 的四个核心步骤以及如何科学地评测它的效果。2. 如何“训练”一个 Skill生产环境中“训练”一个 Skill通常遵循以下四步流程2.1 定义边界与目标在开始之前必须明确这个 Skill 要解决什么场景场景是情感分析、客服话术还是调用 API 查订单输出格式是纯文本、JSON 还是函数调用清晰的边界能避免模型“跑偏”是后续所有工作的基础。2.2 撰写高质量系统提示词 (System Prompt)这是 Skill 的“灵魂”。一个优秀的 System Prompt 通常采用以下结构角色 → 任务 → 步骤约束 → 输出格式 → 异常处理例如一个订单查询助手的 System Prompt 可以这样写你是一个订单查询助手仅根据用户提供的订单号查询物流状态。 1. 若无订单号请追问。 2. 禁止编造任何物流信息。 输出格式{ status: ..., detail: ... }2.3 注入少样本示例 (Few-shot)动态或静态地在提示词中加入 3-5 个高覆盖度的示例能极大提升输出稳定性。生产上常把示例存入向量数据库按输入语义检索最相关的示例动态拼进 prompt 中。2.4 工具/函数定义如果 Skill 需要调用外部接口如查询数据库、调用第三方 API就需要使用结构化的 Function Calling 定义。这种“训练”的本质是让模型学会何时、如何填参调用工具而不是直接生成答案。补充说明如果基础模型实在稳定不下来才会考虑做微调对齐。这时收集 200-500 条高质量对话或指令数据用 LoRA 等方法在小参数量级上调整成本相对较低。3. 如何评测一个 Skill评测需要把“感性感觉”转化为“可追踪指标”。建议为每个 Skill 建立一张评测卡片至少包含以下四个维度维度指标举例获取方式效率首 Token 延迟、端到端耗时、Token 消耗量日志埋点P50/P95 统计达成率任务是否完成如订单查到、审批单提交成功业务后验如回调确认 人工/LLM 打分成本每次调用费用输入输出 Token 成本、工具调用次数实时计费 hook失败率格式错误率、拒绝回答率、工具调用参数错误率、幻觉率正则校验、schema 校验、人工抽检4. 总结“训练”一个生产级的 AI Skill核心在于提示词工程与工具定义而非模型微调。通过“定义边界 → 撰写提示词 → 注入示例 → 定义工具”四步法可以快速将模型能力固化为稳定可靠的技能。同时建立包含效率、达成率、成本、失败率的评测体系是持续优化 Skill 的关键。