GitHub Trending Today — AI Agent与工作流 本分类聚焦 AI 编程智能体快速演进的生态系统。从 Token 压缩和质量门禁到多模型协作和持久记忆这些项目正在构建让智能体更可靠、更高效、更适宜生产环境的基础设施。No.1您的 AI 智能体跑了一条命令返回 500 行日志输出而它其实只需要其中三行——您却为全部内容支付了足额的 Token 费用。Headroom 在这些冗余打到 LLM 之前就把它削掉了。在输入端压缩工具输出、日志、文件和 RAG 数据块据称在答案质量不变的前提下减少 60% 到 95% 的 Token 消耗。以库、代理或 MCP 服务器的形式交付无论您的技术栈如何搭建都能直接接入。https://github.com/chopratejas/headroomNo.2大多数编程智能体要么每两秒问一次权限要么撒开腿狂奔然后把事搞砸。Gajae Code 在两者之间加入了一套真正的工作流。它是一个外部控制框架external harness不是隐藏插件您在 Codex 或 Claude Code 旁边启动它它会为智能体铺设一条有章法的路径一次深度访谈来锁定您真正想要什么一份经过评审的计划然后是基于 tmux 的原生执行大任务还可启用可选的并行工作节点。https://github.com/Yeachan-Heo/gajae-codeNo.3还在为完成一项任务而同时跑多个 AI 智能体吗Omnigent 是一款开源的元控制框架meta-harness将 Claude Code、Codex 等工具统一管控与组合于一处。设置严格的预算上限在安全的云端沙盒中运行智能体与您的团队共享实时会话。一条命令即可部署本地智能体服务器三种方式同时访问终端界面Terminal UI、Web 界面以及您的手机。https://github.com/omnigent-ai/omnigentNo.4AI 智能体的失败方式是可以预测的。什么都没断言的测试、把错误吞掉的异常处理、描述一个早已不存在的函数的文档。guard-skills 精准捕捉的正是这些。一套面向编程智能体的守卫技能。质量门禁瞄准 AI 在代码、测试和文档中生成的特定失败模式。标记空断言测试、静默 catch 块、过时注释。https://github.com/amElnagdy/guard-skillsNo.5如果您想用 AI 在代码库中搜寻严重安全漏洞看看这个。Hadrian 开源了 OpenHack。这是一个轻量级、基于文件的白盒安全审查工作空间可直接在 Claude Code 和 Cursor 等工具内部运行。它使用的是他们研究员在开源软件中发现大规模零日漏洞时所用的完全相同的智能体提示词和配置。https://github.com/hadriansecurity/OpenHackNo.6Claude Fable 5 赢得声誉的方式在于它是如何工作的显式的多阶段规划将任务委派给子智能体在信任输出之前先自行验证。fable-mode 将这一行为封装为一套技能。把它丢进 Claude Code它就会激活同样的严格循环规划各个阶段、将工作拆分给子智能体、自检结果——无论您在跑哪个模型。https://github.com/mrtooher/fable-modeNo.7单个编程智能体只相当于一位开发者。Flock 是一整支团队。它是一个自主 AI 开发团队机器人autonomous AI dev-team bot一组智能体各自承担真正工程团队中的角色协同完成一项任务而非让一个模型从头到尾包揽一切。您把工作交给它团队内部协调、规划、构建和评审您无需操心细枝末节。https://github.com/duckbugio/flockNo.8厌倦了每次会话都得向您的 AI 智能体解释数据库表结构和指标定义ClariLayer 是一个开源的 MCP 服务器为 Claude Code 或 Cursor 等工具提供对 SQL 模式的持久记忆。它从您现有的 dbt 模型引导启动记住您的修正并将定义与实际数据仓库查询进行核对以捕获错误。https://github.com/clarilayer/clarilayerNo.9如果您怀念 Claude Fable 的规划能力您需要看看 FableCodex。这是一个新的开源技能将 Fable 风格的工作流直接带到您的 Codex 智能体中。它建立起一个严格的规划循环目标账本goal ledger、证据检查点evidence checkpoint和最终验证门禁。您的智能体真正地规划、记录和验证自己的工作而非盲目编码。https://github.com/baskduf/FableCodexNo.10想象一个 AI它静默地观察您的屏幕学习您的工作流程然后将您最无聊的任务自动完成您无需配置任何东西。这就是 Ghostwork。它是一个基于 Screenpipe 构建的开源、本地优先的个人助理。没有云端、零设置您的所有屏幕数据完全私密地留在您的设备上。https://github.com/hvardhan878/ghostworkNo.11如果您正在跑复杂的 AI 智能体循环您已经知道 API 账单会高得离谱。您需要看看 Inferoa。这是一个专为 Token 效率设计的开源 TypeScript 框架。它利用智能 KV 缓存管理和循环工程来优化智能体与 LLM 的交互方式。这意味着您获得更快的运行速度和低得多的推理成本。https://github.com/agentic-in/inferoaNo.12各大实验室让世界级搜索智能体——那种能跨几十个来源研究一个困难问题的智能体——看起来需要一个巨大的闭源模型才能实现。Harness-1 是一份面向长周期搜索智能体long-horizon search agent的开放训练方案仅用 200 亿参数模型就达到了前沿 AI 的搜索能力。长周期意味着智能体能够在多步骤中持续推理和搜索而不丢失线索。https://github.com/pat-jj/harness-1No.13一个 AI 研究助理的危险之处不在于它偶尔出错而在于它错得信心爆棚而您根本分不清什么时候该信它、什么时候不该。Caliper 是一个知道何时该信任自己的 AI 研究分析师一个面向科学研究的、经过校准的、风险可控的、会使用工具的智能体。它自行估算置信度在立场不稳时保留意见或标记不确定性并伸手去拿真正的工具而非凭空猜测。https://github.com/AIScientists-Dev/CaliperNo.14一个模型单独工作时会漏掉自身的盲点。两个前沿模型互相检查能捕获更多。Fusion Fable 将这一点打包成一个 Claude Code 技能。Opus 4.8 起草答案第二个模型——另一个 Opus 或通过 Codex 调用的 GPT-5.5——检查其中的漏洞然后 Opus 将两轮结果融合fuse为一个精炼版本。起草、对抗性审查、综合。全自动一个技能搞定。https://github.com/duolahypercho/fusion-fableNo.15人人都在发布声称能让 Opus 表现得像 Fable 的技能但大多数只是贴出一份行为愿望清单然后碰运气。Fablize 是经过严格验证的版本。作者真的跑了一轮 Fable 与 Opus 的对比测试只将那些被证明可迁移的行为纳入了技能完成度completion、证据evidence和验证verification作为硬性流程强制执行而非温和建议。https://github.com/fivetaku/fablizeNo.16今年您已经见过十几种智能体控制框架了也许您已经想自己动手构建一个而不是把别人的方案削足适履。这是用来造工具的工具。agent-harness-generator 是一个元控制框架它为您的专属、有品牌的智能体控制框架搭建脚手架附带自己的 npx CLI、一个 MCP 服务器、记忆模块、学习循环以及证人签名发布witness-signed release机制以确保来源可验证。https://github.com/ruvnet/agent-harness-generator这些智能体基础设施项目的数量和品质揭示了一个明确的趋势原始编程智能体正在迅速商品化真正的差异化正在向上转移——围绕它们的编排、验证和效率层展开。