最强模型Claude Fable 5被破解！Anthropic暗箱降智风波引众怒

发布时间：2026/6/16 1:08:23

最强模型Claude Fable 5被破解就在刚刚最强模型Claude Fable 5被破解了知名黑客「Pliny the Liberator」公开宣布Fable 5的安全分类器已被自己率领的团队彻底攻破。属于绝对禁区的漏洞利用代码以及各种违禁化学品的制作步骤全部被Claude Fable 5吐了出来。要知道6月9日Claude Fable 5发布时Anthropic特意强调模型在发布前经历了超过1000小时的外部漏洞赏金测试没有发现任何通用越狱方法。他们声称网络安全、生物武器、化学毒品等高危敏感领域的查询已被分类器彻底锁住。然而这个神话只维持了几天72小时后就被黑客毫不留情地破解了Anthropic吹的牛三天后被人当场打脸。这次黑客「解放者普林尼」带领了一个多智能体战术系统成功撕碎了Fable 5的防线。他晒出了数张高清截图截图显示原本属于绝对禁区的x86 Linux系统的堆栈缓冲区溢出漏洞利用代码以及违禁化学品合成中的工艺步骤均被Claude Fable 5详尽输出。更令Anthropic尴尬的是Pliny顺手将Fable 5内部那条长达12万字符的系统提示词全部打包直接上传到了GitHub这无异于将模型的「行为宪法」和内部防御逻辑赤裸裸地暴露在阳光之下。最强黑客关键杀招这道「地表最强」安全防线究竟是如何被Pliny攻破的技术文档显示他并没有使用高深的代码漏洞而是利用了对大语言模型逻辑漏洞的理解打出了一套多智能体协同战术。要知道Fable 5的安全机制核心是一套关键词分类器——检测到敏感词汇立刻拦截请求把你转到功能更弱的备用模型。听起来严密但普林尼的团队却找到几个关键杀招让Fable 5一击致命首先是字符级迷魂阵让分类器认不出关键词。大模型的安全分类器通常依赖高维语义向量和特定敏感词词库。Pliny把一个英文里的字母替换成了几乎一模一样的西里尔字母、拉丁字母同形字、特殊Unicode字符甚至类似于「蛇佬腔」式的异形文本变形。人眼看不出这种区别但安全分类器在进行静态扫描时无法将其识别为「违禁词」字符串匹配逻辑直接宕机了其次是把意图稀释进一场漫长的对话里。由于Fable 5拥有极长的上下文处理能力Pliny把自己的真实意图被拆散藏进几十轮无害的铺垫对话中一点一点投喂。在对话的头部和中部充斥着大量合规健康的学术讨论。这样Fable 5在阅读了大量良性上下文后安全分类器的注意力权重被稀释埋藏在尾部的微小诱导请求就「浑水摸鱼」成功了。再者是穿上学术马甲将敏感请求包装成「科幻小说创作」、「虚拟世界中的安全防范演练」或「针对历史文献的学术评审」。比如让模型扮演一名学术中立的教授去评审一篇关于「古老还原反应在有机化学中应用」的论文或者让模型以为自己在写小说不是在要求它生成化学合成步骤而是让它写一部犯罪惊悚小说主角是个化学家需要足够真实的技术细节才能让故事可信。在强大的角色设定和叙事逻辑压制下模型根本识别不出黑客的底层意图。终极杀招是解构与重组。Pliny坦言如果直接询问模型「如何制造冰毒」分类器会瞬间警觉。但你要是问桦木还原法/还原胺化法经典的冰毒合成途径就容易得多了。只要将这些有害的目的拆解为十几个相互独立、在科学上完全合法的子步骤由于每一个单独的子问题都是良性的Fable 5在不知不觉中就吐出了完整的违禁配方读者拜读上述方法之后大为震撼太牛了A厂怎么还不雇佣你Anthropic的暗箱降智风波激怒全球开发者而且就在这几天轰动AI圈的「暗箱门」事件也让Anthropic的风评跌到谷底。在Fable 5里秘密部署了一套专门针对同行研究者的「隐形降智」机制。一旦系统判断用户正在用Claude训练其他模型Fable 5不会弹出任何提示但它会故意变蠢提供充满漏洞、逻辑冗余甚至完全错误的垃圾代码悄悄破坏你的研究。Anthropic对此的解释听起来很是冠冕堂皇。美国及其盟友在尖端芯片以及高度优化软件方面拥有优势这些安全措施确保Claude不会被用来削弱这种优势。然而这套机制直接点燃整个AI社区的怒火这种「喂药」式的暗箱操作简直就是对科研人员的隐形阻击。不知情的研究者很可能会使用被污染的数据训练模型导致数百万美元的算力成本付诸东流。消息一出整个开源阵营和学术界瞬间炸锅。前白宫AI顾问Dean W. Ball在上公开痛批在用户完全不知情的情况下暗中降低机器学习研究的性能。这种做法对研发人员抱有极大的敌意缺乏最起码的透明度手段令人震惊且极其难看。开源AI阵营的先锋代表、Prime Intellect负责人Will Brown更是直言不讳这感觉就像是Anthropic在对公众说「我们不信任任何人做AI研究只有我们有资格。」这无异于自己爬上了天就急着把别人的梯子抽走。甚至这种行为直接威胁了整个AI评估生态第三方基准测试和安全机构的测试结果将完全失真他们辛辛苦苦测出来的结果根本不是Fable 5而是一个被阉割、故意装傻的冒牌货。整个行业的信任链条会彻底断裂Anthropic迅速滑跪我们道歉面对席卷全网的舆论海啸Anthropic很快撑不住了。就在昨天Anthropic公开致歉承认决策错误宣布紧急撤回隐形降智政策。他们表示正在修改Fable 5中针对前沿LLM开发的安全保障措施使其更加透明还称之前做出了错误的权衡对于未能找到合适的平衡点深表歉意。他们的新方案是把隐形降智改成明文拦截触发机制时系统会明确告诉你被拦截了并把你转到功能较弱的Claude Opus 4.8而不是继续骗你。不过改了但没完全改。这个新方案代价更大明文拦截意味着拦截逻辑对外可见更容易被人针对性地绕过因此拦截范围必须设得更保守因此会有更多正常的普通开发者请求被一起误判拦截。为了弥补少数人的过失他们要明着误伤更多人。果然还是那个「宁可错杀一千不可放过一个」的Anthropic。Anthropic的口碑现在已经碎了一地了。他们把自己包装成人类AI未来的守护者却有资格决定谁能做研究谁不能。无数研究者选择Claude不只因为它聪明还因为相信它可靠。这种信任是Anthropic最值钱的资产之一他们亲手砸碎了。用Claude的人会不断怀疑我拿到的答案是真的吗这就是Anthropic永远失去的东西。

文章详情

最强模型Claude Fable 5被破解！Anthropic暗箱降智风波引众怒

相关新闻

最新新闻

日新闻

周新闻

月新闻