
菜单- [主页](/)- [关于我](https://alexellis.io)- [GitHub](https://github.com/alexellis/)- [Twitter](https://twitter.com/alexellisuk)- [领英](https://www.linkedin.com/in/alexellisuk/)- **电子书**- [• 日常 Go 编程](http://store.openfaas.com/l/everyday-golang)- [• 面向大众的无服务器计算](http://store.openfaas.com/l/serverless-for-everyone-else)- [• 使用 K3s 网络启动树莓派](http://store.openfaas.com/l/netbooting-raspberrypi?layoutprofile)本地版 Qwen 并非逊色于 Opus而是用途不同的工具2026 年 6 月 17 日标签[大语言模型LLM](/tag/llm/)[LocalAI](/tag/localai/)[智能体Agents](/tag/agents/)有人称本地版 Qwen 27B 或 35 - A3B “接近 Opus 水平”而作者凭借软件业务和开源项目的实际经验将坦诚分享相关情况。这篇文章并非走马观花的浅尝辄止也不是毫无根据的宣称而是作者作为小型软件企业创始人的亲身经历本地模型创造了有条件限制的价值作者希望本地模型能变得强大且可靠。作者将介绍显卡回本情况、满足业务需求情况、不能让其无人监督工作的原因以及 Qwen 无限循环和产生幻觉的风险这些问题在量化适配消费级 GPU 时尤为明显。我对 AI 的使用场景作者作为维护者和创始人的旅程始于 OpenFaaS早期项目完全手工打造后加入 VMware 获取资金支持市场变化后转向开放核心模式创立公司。如今团队维护着 [OpenFaaS](https://openfaas.com)、[SlicerVM](https://slicervm.com)、[Actuated.com](https://actuated.com)、[Inlets.com](https://inlets.dev) 等产品。这些产品使用底层 Linux 原语是注重效率、用户体验、控制和自主性的基础设施产品用 Go 语言编写部分有基于 React 的 UI 组件等还提供一流支持。作者自 AI 工具出现就开始使用见证了其能力从“减少样板代码”发展到“进行端到端的设计、架构搭建和测试”多数工作由 Claude 或 Codex 完成作者很少手写代码。前沿智能的转折点大约在 2025 年 11 月到 2026 年 1 月之间出现转折点X 平台上开发者称赞 Claude Opus 带来改变手动编码迅速“变质”高端编码套餐费用稳定在个人每月约 200 美元合理使用可充分利用其价值。本地模型的吸引力有一种观点认为应使用能负担得起的最好的东西。2026 年是新的前沿时期软件易被克隆免费且够用可能最重要。领先模型参数数量远超本地硬件支持的最佳模型参数数量反映模型容量等。但小型密集模型 Qwen 3.6 27B 在基准测试中也能取得不错成绩有人宣称本地模型仅比最先进水平落后 12%甚至称旧 GPU 能取代 ChatGPT Pro 订阅。追求基准测试高分基准测试是动态目标人们可训练调整模型使其获更高分。经典 SWE - Bench Verified 基准测试基于 Python 问题而作者团队用 Go 语言编写分布式系统。成本因素“本地模型与成本无关”的观点站不住脚。个人每月花 200 美元可使用编码套餐获得先进智能但编码套餐有补贴按 API 费率付费成本突破点会更早到来。优步为开发者使用工具设定每月花费上限占年薪一定比例。因此大量使用、循环任务等场景下本地模型或开放权重模型能提供价值但成本对很多人不是主要因素。主权和隐私作者团队与重视数据控制的企业客户合作注重隐私和主权。OpenFaaS、SlicerVM、Inlets、Actuated 等产品都能让用户对数据有更多控制。所以团队被本地模型吸引且存在供应商风险如 Anthropic 的 Fable 5 模型下架本地模型可解决相关问题。把握分寸作者认为本地模型与最先进水平的模型不是同一种工具以手工制作家具和处理钢材为例团队使用本地模型的经历类似错过回火颜色模型易陷入循环不能无人看管处理长期任务。我的期望作者期望本地模型具备隐私、固定成本和防范供应商风险等优点但使用时发现与对待 Claude 或 Codex 不同Claude 或 Codex 可无人监管长时间工作并取得进展。从 3090 显卡得到的惨痛教训2023 年作者用 3090 显卡加载本地模型发现需添加一块才能满足需求当时本地模型难用最终放弃。Qwen 3.5 让作者首次看到智能体完成实际工作。作者加载模型完成任务时Qwen 出现问题如读取文件填满上下文、虚构文件名等。27B 模型装入 3090 显卡需调整参数3090 显卡使用麻烦且 vLLM 生成速度比 llama.cpp 慢。大笔投入作者团队为企业提供支持合同为让本地模型正常工作花 12000 美元买 RTX 6000 Pro Blackwell 版显卡几个月后价格上涨再添加一块成本过高。此次投入有回报但不能取代 Claude 订阅。无忧的客户支持且不泄露客户数据企业运维人员受手动流程限制作者团队编写“diag”CLI 工具运维人员运行该工具捕获 OpenFaaS 安装快照通过本地模型处理可在相关文章中了解更多问题。收入追回作者将遥测数据库输入本地模型发现客户少报许可证数量追回的收入够买显卡。作者不会将客户数据通过云服务处理远东和近东地区编码套餐可能对知识产权有特权立场本地模型也可能在算术运算等方面出错让其专注分析而非解释更好。我们目前的设置作者支持对开放权重模型进行微调的人团队在 RTX 6000 设备上同时运行 Qwopus 和基础的 27B Qwen 3.6 模型设置会随情况变化。模型由两个独立的 llama.cpp 实例提供服务可保留完整上下文长度。llama.cpp 从源代码构建并按需更新运行单个 Qwen 实例的命令可保留完整上下文长度和高质量上下文从 MTP 推测解码中可提高速度。调整 llama.cpp 时要遵循模型卡片说明。关于循环问题作者调整模型避免循环但 Qwen 仍会出现问题如给出建议后卡住重复处理命令时陷入循环团队成员也有类似报告作者很少信任其用于除客户支持/续约遥测和诊断工作外的任务。测量和分配访问权限作者设置 inlets 隧道避免智能体冲突分配设置简单但多人使用模型时会出现管理问题作者编写 opencode 提供者管理模型用 Shelly Plus 插头监测功耗。错误的比较将本地模型每百万令牌的输入/输出成本与 OpenAI 的 GPT - 5.5 API 定价比较是错误的更应关注持续成本本地 AI 成为运维问题需解决身份验证、访问控制等问题更困难的是智能体/模型组合的可靠性等。总结本地版 Qwen 并非“接近 Opus 水平”但对某些任务和工作流程有价值且处于早期阶段会不断改进。Qwen 3.7 版本可能是渐进式改进。作者给出实用建议将本地模型与特定任务匹配编写 AGENTS.md 文件注意模型卡片调优说明本地模型可读取解释代码库尝试微调版本利用智能体技能同时使用本地和云模型不让其处理长期无人监管任务。目前 70B 模型较陈旧Qwen 的 35 - A3B 变体受欢迎还有更大模型但超出团队范围。作为消费者不确定未来方向27B 密集模型目前无法胜任整天编写 Go 代码的工作。可在相关文章中了解代码审查机器人和 OpenFaaS 的无忧客户支持和架构审查。