
Prompt Engineering、Context Engineering、Harness Engineering、Agentic Engineering、Loop Engineering这五个词其实讲的是同一件事人类正在把对 AI 的控制权从一句话迁移到一整套系统。从 Prompt 到 Loop人的角色从“提问者”变成“循环架构师最近一周我又被几个新词追着打。Prompt EngineeringContext EngineeringHarness EngineeringAgentic EngineeringLoop Engineering。你刷 X 能看到刷公众号能看到逛 GitHub 能看到打开各种 AI 工具的更新日志也能看到。而且最烦的是每一个词看起来都很像。都是 Engineering。都是在讲 Agent。都有人说这是下一代软件工程。所以很多朋友会很自然地问一句这到底是技术进步还是 AI 圈又开始造词了我觉得答案很简单。有一部分确实是造词。但更重要的是这些词背后真的对应了我们和 AI 协作方式的五次变化。它们不是互相替代的关系而是像一层一层往外扩的控制系统。最里面还是那条 Prompt。再往外是你给它看的 Context。再往外是你给它套上的 Harness。再往外是你组织起来的一群 Agent。最后是你设计出来的 Loop让整套系统不用你每一步都盯着也能持续运行。如果非要用一句话概括Prompt Engineering 解决的是怎么把话说清楚。Context Engineering 解决的是怎么把材料喂对。Harness Engineering 解决的是怎么让 Agent 在可控环境里干活。Agentic Engineering 解决的是怎么把多个 Agent 组织成队伍。Loop Engineering 解决的是怎么让这支队伍持续发现问题、解决问题、记录状态然后进入下一轮。这就是这篇文章想讲清楚的事。一、Prompt Engineering那个人人都在研究咒语的年代2022 年底到 2023 年ChatGPT 横空出世。那时候最火的词就是 Prompt Engineering。我相信很多人都经历过那个阶段。你问 AI帮我写一篇关于 AI 的文章。它大概率给你一坨非常正确、非常完整、非常没用的废话。但如果你换一种问法你是一个科技领域的资深作者面向普通读者用口语化方式解释 AI 对工作的影响要有案例、反例和结论不要太像公文。出来的东西就会明显好很多。于是大家开始疯狂研究提示词模板。什么角色设定什么任务背景什么输出格式什么一步一步思考什么 few-shot example。那个年代Prompt 真的很重要。因为模型还不够聪明。你给它一点点约束它就好一点你给它一点点结构它就稳一点。那时候的 AI更像一个很聪明但很不稳定的实习生。你必须站在旁边一句一句交代。话说重了它会僵。话说轻了它会飘。你每一次输入几乎都直接决定它下一次输出。所以 Prompt Engineering 的本质就是在单次交互里用语言把模型推到正确方向上。它解决的是“怎么问”的问题。但是到了 2024 年下半年这件事开始变味了。不是 Prompt 不重要了而是它不再是最稀缺的能力。因为模型越来越强了。Claude 3.5 Sonnet 之后很多人开始有一个明显体感你不用再像伺候大爷一样把每句话雕成花。你只要说人话它基本能懂。于是瓶颈开始转移。真正影响结果的越来越不是你那句话有多漂亮而是它手里有没有足够正确的信息。这就进入了第二阶段。二、Context Engineering不是会问而是会喂Anthropic 在 2025 年的工程博客里把 Context Engineering 称为 Prompt Engineering 的自然演进。这句话我觉得很准确。因为在真实的 AI 应用里模型要做的事情已经不是回答一道题了。它要读文档、看代码、查日志、调用工具、记住历史、理解业务约束。这时候你会发现一个写得再漂亮的 Prompt也救不了上下文缺失。比如你让 AI 帮你改一个函数。你只把这个函数贴给它它可能能改。但它很容易不知道这个函数被谁调用、项目的错误处理规范是什么、测试怎么写、团队命名习惯是什么、这个模块过去为什么这么设计。于是它会改出一个“局部看没问题全局看像事故”的东西。但如果你同时给它相关文件。调用链。错误日志。测试输出。项目规范。历史设计文档。那它的表现会完全不一样。Context Engineering 的核心不是把所有东西都塞进去。那叫倒垃圾。真正的 Context Engineering是在有限的上下文窗口里选择此刻最有用的信息。该给全量的时候给全量。该给摘要的时候给摘要。该给路径的时候给路径。该让它自己去查的时候给它工具和索引。这件事有点像考试。Prompt Engineering 是你怎么读题。Context Engineering 是你有没有带对书、翻到对页、划出重点。到了 Agent 时代这件事更复杂。因为 Agent 不是只跑一轮。它会行动会观察结果会产生新的日志会把新的中间状态变成下一轮推理的材料。Anthropic 那篇文章里有个很重要的判断上下文不是一个静态输入而是每一轮都要重新整理的状态。这就意味着Context Engineering 其实已经开始从“提示词技巧”变成了“信息流管理”。你不再只是写一句话。你在设计一个系统让 AI 在正确的时间看到正确的信息。但是只让它看到正确的信息还不够。因为当 AI 开始调用工具、改文件、跑命令、发 PR 的时候问题就从“它知不知道”变成了“它能不能被约束”。于是 Harness Engineering 登场。Prompt 仍然在最里面只是被更大的工程系统包住了三、Harness Engineering给一匹快马套上缰绳Harness 这个词直译是马具。马鞍、缰绳、嚼子一整套用来驾驭马的东西。这个类比非常好。因为现在的大模型已经不是那个只能聊天的模型了。它能写代码能读仓库能调用 CLI能跑测试能打开浏览器能同时开多个工作线程甚至能自己修自己刚刚写坏的东西。它像一匹很快的马。快是快。但如果你不给它缰绳它也会带着你冲进沟里。OpenAI 在 2026 年 2 月发了一篇很有代表性的文章讲他们做了一个内部实验用 Codex 从一个空 Git 仓库开始五个月搭出一个大约百万行代码的产品。这件事最夸张的地方不只是“AI 写了很多代码”。而是他们强调人类工程师没有直接手写代码。人的工作变成了设计环境、说明意图、搭建反馈回路让 Codex agents 能可靠地工作。这就是 Harness Engineering。不是你亲自写每一行代码而是你搭一个环境让 Agent 在里面自己写。这个环境里有什么有 AGENTS.md 这样的规则文件。有架构分层。有测试。有 lint。有 CI。有权限边界。有浏览器、日志、截图、指标这些 Agent 能读懂的反馈信号。有本地 review也有云端 agent review。它们合起来就是 Harness。Martin Fowler 站点上的文章把 Harness 拆得很清楚一类是 feedforward也就是行动前的引导一类是 feedback也就是行动后的检测。翻成人话就是先给护栏。再装摄像头。护栏是规则、文档、架构约束、工具说明。摄像头是测试、静态分析、日志、浏览器截图、review agent。好的 Harness不是等 AI 犯错以后你去骂它。而是你发现它会犯某类错就把这类错变成系统里的一条规则、一个测试、一个自动检查。这其实特别像管理公司。你不可能靠老板每天站在每个员工背后说这个别做错那个别忘了。你靠的是制度。靠流程。靠权限。靠验收标准。靠出了问题以后把经验沉淀到 SOP 里。所以 Harness Engineering 的本质是把“人脑里的经验”变成 Agent 可读、可执行、可验证的环境。这也是为什么我越来越觉得会写规则、会写测试、会做结构设计的人在 Agent 时代反而更重要。因为 AI 能写代码以后真正稀缺的不是手速。真正稀缺的是你能不能定义一个它不会乱跑的世界。四、Agentic Engineering一个 Agent 不够了开始组队如果 Harness Engineering 解决的是一个 Agent 怎么在环境里可靠干活那 Agentic Engineering 解决的就是一群 Agent 怎么一起干活。这一步很自然。因为真实的软件工程从来不是一个人从头干到尾。有产品。有设计。有开发。有测试。有安全。有运维。有 review。有上线。有复盘。一个 Agent 再强也不一定适合把所有角色都塞在自己身上。LangChain 在 2026 年 4 月的一篇文章里把 Agentic Engineering 描述成一种多 Agent 协作模型不同 Agent 像数字团队成员一样有角色、有共享记忆、有观测层推动软件从需求、开发、测试到交付。这句话看起来很抽象。但你可以把它想成一家小公司。Prompt Engineering是你对一个人说一句话。Context Engineering是你给这个人准备资料。Harness Engineering是你给这个人配电脑、开权限、定规范、接测试。Agentic Engineering是你开始搭组织结构。谁做需求拆解谁写代码谁专门 review谁跑测试谁看安全谁做发布谁记录经验当多个 Agent 一起工作的时候新的问题会出现。它们会互相污染上下文。它们会重复劳动。它们会对同一个目标产生不同理解。它们会把锅甩给另一个 Agent。它们甚至会在一个错误假设上集体狂奔。所以 Agentic Engineering 的重点不是“多开几个 Agent 就完事了”。而是协调。是分工。是共享记忆。是观测和追责。是让每个 Agent 的产出都能被另一个角色验证。这时候人的角色已经从“给 AI 下指令的人”变成了“设计一支 AI 团队的人”。你不再只是问怎么让这个 Agent 回答得更好。你开始问这个工作应该由几个角色完成哪些步骤应该并行哪些步骤必须串行谁有权修改谁只负责审查失败以后由谁接手状态记录在哪里这就是 Agentic Engineering 的意义。但多 Agent 还不是终点。因为一支队伍再强如果每一步都要你手动按开始它还是离不开你。真正的变化是当系统开始自己进入下一轮。这就是最近开始火起来的 Loop Engineering。Loop 的关键不是让 Agent 一直跑而是让每一轮都有真实信号、有外部记忆、有停止机制五、Loop Engineering你不再提示 Agent你设计提示 Agent 的系统Loop Engineering 这个词最近在 AI 编程圈特别热。Addy Osmani 在 2026 年 6 月的文章里把它讲得很直接Loop Engineering 是把你自己从“提示 Agent 的人”替换掉你去设计那个会提示 Agent 的系统。这句话很绕但非常关键。过去你用 AI 写代码是这样的你说一句。Agent 做一点。你看结果。你再说一句。Agent 再改一点。你再看测试。你再让它修。这叫人肉循环。人是那个 Loop。你负责看反馈、判断下一步、继续推动。而 Loop Engineering 要做的是把这个循环系统化。比如每天早上自动读取昨天失败的 CI、线上报警、用户反馈和未处理 Issue。系统把问题分级。把简单问题交给 Agent 修。Agent 开 worktree读相关上下文改代码跑测试。测试过了生成 PR。另一个 Agent review。review 不过回到上一轮。通过以后把结果写回 TODO、Issue 或知识库。第二天它继续读这些状态进入下一轮。这就是 Loop。它至少有六个东西第一触发器。什么时候开始是定时是 CI 失败是用户反馈还是人工发起第二目标。什么叫完成什么叫失败什么情况必须停下来交给人第三上下文。每一轮需要读哪些文档、日志、代码、历史状态第四行动能力。它能改什么能跑什么能调用什么工具权限边界在哪里第五观察信号。测试结果、lint、截图、日志、review 评论、用户指标哪些信号能说明它做对了第六外部记忆。状态不能只存在对话框里。对话会结束模型会忘。真正长期运行的 Loop必须把状态写到仓库、Issue、数据库、文档或者某个可审计的系统里。所以 Loop Engineering 不是“让 AI 一直跑”。那很危险。它真正关心的是如何让一个系统持续运行同时知道什么时候继续、什么时候停止、什么时候升级给人。这跟自动驾驶很像。最低级的自动驾驶是车能自己往前开。真正难的是它能不能识别红灯、行人、施工路段、突发天气以及在不确定的时候把控制权交还给人。AI Agent 也是一样。一直循环不难。难的是不空转、不瞎改、不把错误放大、不把 token 烧成烟花。六、所以这五个词到底是什么关系很多人喜欢问Prompt Engineering 是不是死了我觉得这个问题本身就问错了。Prompt 没死。只是它不再独自站在舞台中央了。一个 Loop 里仍然有无数 Prompt。一个 Harness 里也一定有 Prompt。一个 Agentic 系统里每个 Agent 都有自己的 Prompt 和 Context。只是它们被更大的系统包起来了。这五个词的关系大概可以这样理解Prompt Engineering 是语言层。它关心这句话怎么写。Context Engineering 是信息层。它关心这次推理该看什么。Harness Engineering 是执行层。它关心 Agent 在什么环境里行动怎么被约束怎么被验证。Agentic Engineering 是组织层。它关心多个 Agent 如何分工协作如何共享状态如何被观测。Loop Engineering 是时间层。它关心系统如何在一次又一次循环中持续推进如何从反馈里学习如何长期运行。越往后抽象层级越高。但每一层都没有消失。就像你盖楼。地基没有因为三楼建好了就过时。它只是被包在下面继续承重。AI 越自主人的工作越像“设计系统”而不是“亲自操作”七、那普通人到底该学什么如果你不是程序员这些词听起来可能还是有点远。但我觉得这里面最重要的思维其实跟写不写代码没关系。用 AI 做任何复杂事情最后都会走向这五层。比如你让 AI 帮你做内容选题。最开始你会研究 Prompt帮我找 10 个 AI 选题要有标题、角度和推荐理由。后来你会发现光靠这句话不够。你得给它上下文你的账号定位、过往爆文、读者画像、最近热点、竞品文章、你不想碰的方向。这就是 Context。再后来你会发现它有时会乱推荐标题也不稳定。于是你定规则不能标题党。不能写重复选题。必须查证来源。每个选题必须给出反方理由。这就是 Harness。再后来你可能会让多个 Agent 分工一个 Agent 抓热点。一个 Agent 做选题。一个 Agent 审核。一个 Agent 改标题。这就是 Agentic。最后你希望每天早上系统自动跑一遍生成候选选题审核不过自动重写通过以后写进选题库。这就是 Loop。你看代码只是最先发生变化的领域。因为代码天然可验证有测试有编译有 CI所以 Agent 最容易先在那里跑起来。但这套思路迟早会迁移到内容、运营、销售、客服、财务、法务、投研、教育。所有可重复、可验证、可沉淀的知识工作都会经历类似的过程。先是人跟 AI 对话。然后是人给 AI 资料。然后是人给 AI 规则。然后是人组织 AI 团队。最后是人设计 AI 循环。八、别急着迷信新词写到这里我还是想泼一点冷水。不是所有事情都需要 Loop。不是所有任务都需要多 Agent。不是所有个人工作流都要搞 Harness。很多时候你只是要写一封邮件那就好好写 Prompt。很多时候你只是要读一篇论文那就把上下文给够。很多时候一个 checklist 就能解决的问题不要上多 Agent。能用确定性规则解决的别交给不确定的模型。能用一次对话解决的别搞成长期自动化。Loop 最危险的地方就在于它会把你的好设计放大也会把你的坏设计放大。一个没有停止条件的 Loop就是一台自动烧钱机器。一个没有验证机制的 Loop就是一台自动制造垃圾机器。一个权限太大的 Loop就是一台自动扩大事故半径的机器。所以真正成熟的 AI 工程不是把所有东西都 Agent 化。而是知道什么时候不用 Agent。知道什么时候停下来。知道哪些事情必须让人来判断。这也是我觉得很多人误解“自主 Agent”的地方。自主不是放任。自主是你设计了足够好的边界让它可以在边界内自由行动。结语人类一直在做同一件事回头看从 Prompt 到 LoopAI 只用了三年多。但这件事在人类历史里一点都不新鲜。人类学会用火的时候也是先小心翼翼地添柴。这像 Prompt。后来人类造了炉子把火放进一个结构里用进气口和烟囱控制它。这像 Context 和 Harness。再后来人类造了蒸汽机让火在一套机器里持续做功。这像 Agent 和 Loop。技术越强人类越不能只靠手动操作。你必须发明结构、规则、反馈、仪表盘和停止按钮。AI 也是一样。所谓 Prompt Engineering、Context Engineering、Harness Engineering、Agentic Engineering、Loop Engineering听起来像五个新词。但底层其实就是一个老问题当一个东西比你更快、更强、更自主的时候你怎么还能让它为你所用。这才是未来十年最重要的能力。不是会写一句神奇提示词。而是会设计一个可靠系统。