OpenAI 发布了 GPT-5.6 Sol、Terra 和 Luna 模型 OpenAI 宣布其最新前沿人工智能模型 GPT-5.6 系列的有限预览该系列有三个变体Sol、Terra 和 Luna。Sol用于最难的问题如复杂编码和安全研究;Terra用于高流量业务任务如客户支持、内部工具和文档分析;Luna用于更快、成本更低的日常工作如摘要、制图和日常自动化。Sol 和 Terra 创造了新的高基准分数而 Luna 在多项测试中表现接近 GPT-5.5 水平尽管它被定位为 GPT-5.6 系列中最快且成本最低的模型。不过这些模型最初仅提供给大约20个组织OpenAI已向美国政府分享了模型和发布计划。计划在“未来几周内”全面发布。此次分批发布是在2026年6月2日美国总统唐纳德·J·特朗普发布行政命令之后该命令呼吁各联邦机构合作制定一个程序进行新AI模型的基准测试和能力评估以确保其安全且适合广泛发布。虽然这一过程仍在进行中订单中说为30天即7月2日OpenAI在其发布博客中表示“在今天发布前预览了我们的计划和模型功能。应美国政府要求我们将先为一小部分可信合作伙伴提供有限的预览。”OpenAI的有限预览发布策略也紧随美国政府对AnthropicOpenAI的美国最大竞争对手发出出口管制令的严厉措施原因是其最强大的普遍发布模型Claude Fable 5存在越狱行为Anthropic则通过移除公私部门对该模型及其网络安全对应品Claude Mythos 5的所有访问权限作为回应。Anthropic此前曾在其网络安全研究项目“Project Glasswing”中向少数外部参与者预览过该模型的早期版本名为“Claude Mythos Preview”该项目可追溯到4月。由于OpenAI正在与白宫协调发布框架准备更广泛的公开发布企业买家必须应对实时安全干预、强制合规参数和结构化代币缓存系统的新环境。3款新的GPT-5.6模型的不同之处Sol、Terra 与 Luna这三个GPT-5.6模型旨在满足不同的企业需求和性能特征。Sol是顶级选择专为复杂推理、长时间编码、高级代理驱动工作流以及安全相关应用等最严苛任务而设计。Sol 提供了最高的能力水平但价格最高每百万输入令牌 5.00 美元/每百万输出令牌 30.00 美元——与 GPT-5.5 相同——OpenAI 表示它为长期编码、网络安全和代理任务带来了显著的性能提升。Terra在高性能与高效之间取得了平衡。它面向大规模生产环境组织需要在大量工作中获得可靠结果但又不想承担最先进模型的开销。每100万代币售价为2.50美元/15美元。Luna是最轻便且最具成本效益的选择针对速度和日常使用场景进行了优化。它非常适合更简单的任务、常规工作流程以及响应性和可扩展性比最大推理深度更重要的应用且价格最实惠分别为每百万个代币1美元/6美元。了解OpenAI内部运作的消息人士向VentureBeat透露新的命名方案旨在摆脱GPT-5的“纳米”和“迷你”变体因为这些模型在大小或原始智能上差异不大而是针对不同不同的应用场景设计。正如OpenAI在其关于新命名方案的博客文章中所述“在GPT-5.6引入的新命名系统中数字表示模型的世代而Sol、Terra和Luna则识别能够按自身节奏发展的持久能力层级。这个家庭共同为个人和开发者提供了更清晰的智能选择涵盖智能、速度和成本。”此外消息人士称OpenAI试图通过关注宇宙和与之相关的名称来唤起灵感。此外Sol与OpenAI的Daybreak选择加入计划非常契合面向有意利用OpenAI模型增强网络防御的组织这也是额外的优势。OpenAI在ChatGPT上的语音模式中的“Sol”语音风格与此无关可能会被重新命名。新的GPT-5.6系统卡片为企业增加了另一个重要点OpenAI将三款GPT-5.6模型——不仅仅是Sol——归类为“高”风险级别涵盖网络和生物/化学能力同时在AI自我提升方面将其评级低于该级别。这意味着即使是更便宜的Terra和Luna层级也可能为在安全、生命科学或其他敏感工作流程中使用它们的公司承担新的治理义务。以下是它们在价格上与其他领先的大型语言模型领域相比的比较——注意OpenAI最便宜的方案整体来说是中等价位的型号但仍然比前沿级别的GLM-5.2更贵。VentureBeat Frontier AI 模型 API 定价快照技术更深层次的推理和基于子代理的工作GPT-5.6 的主要技术变化在于在推理过程中给予模型更多时间和结构处理困难任务。OpenAI 正在为 GPT-5.6 Sol 添加一个新的推理设置针对需要更长时间思考的问题。maxOpenAI还引入了模式引入子代理可以拆分并加速复杂项目而不是将工作限制在单一代理流程中。ultra公司发布评估显示这种方法在多个代理类任务中提升了性能。基准测试显示GPT-5.5 有了可衡量的提升以及 TerminalBench 2.1 命令行任务的全新先进技术GPT-5.6系列在复杂推理和长期任务方面明显提升了前代。GPT-5.6在TerminalBench上与其他模型的性能比较图表。图片来源OpenAI在TerminalBench 2.1测试的命令行自动化中旗舰Sol型号和中端Terra都超过了之前的GPT-5.5基准测试尽管值得注意的是Sol利用新的超思维模式在基准测试中创下了91.91%的历史新高得分而最高模式的得分为88.76%领先GPT-5.5的83.4%和Claude Mythos 5的88%。这种优势也体现在《Agents Last Exam》的专业流程中Sol是唯一在“代码模式”中以50.9%成功完成任务一半的模型而日常版Luna也以微弱优势击败了上一代的旗舰机型。GPT-5.6系列在Agent#39;s Last Exam基准测试中的得分。图片来源OpenAI在定量生物学和基因组学测试中Sol和Terra的准确率均高于GPT-5.5和GPT-5.4Sol明确管理这些更强的结果同时消耗更少的代币。最后在衡量漏洞研究和利用的网络安全评估中新模型突破了以往的性能上限;随着推理时间的增加Sol 能够显著提高预期利用率并用较旧模型所需的输出代币数量达到竞争能力上限。在ExploitBench上OpenAI表示Sol的表现接近Mythos Preview同时产生的输出代币数量大约只有三分之一。OpenAI GPT-5.6 在 ExploitBench 上与其他模型的表现比较。图片来源OpenAI可预测的提示缓存机制和Cerebras的减速障碍为了帮助企业控制运行代理循环的不可预测成本曲线GPT-5.6 API 推出了全新升级的提示缓存协议。开发者现在可以实现显式缓存断点并保证缓存寿命至少为30分钟。在该框架下初始缓存写入成本是模型标准未缓存输入率的1.25倍而后期缓存读取则可享受90%的折扣。实际上重复或类似操作的企业会支付更多费用来建立缓存而每次重复使用缓存上下文时至少在30分钟的最低缓存窗口内会支付更低的费用。对于那些经常将大量上下文窗口或代码库定义反馈到模型的系统来说这种可预测性是关键的财务护栏。此外对于延迟是主要应用障碍的企业应用OpenAI将于今年7月在Cerebras硬件上发布GPT-5.6 Sol。该基础设施合作声称处理速度高达每秒750个令牌面向需要实时、前沿级推理的专业企业应用。企业影响高安全性和算法摩擦对于企业工程、信息安全和合规团队来说部署GPT-5.6需要对其安全架构进行细致审视。为了获得发布许可OpenAI 专门投入了大约 70 万小时的 A100e GPU 时间用于自动红队化的 GPT-5.6。这些计算被用于发现“通用越狱”——系统性攻击向量旨在绕过不同情境下的防护措施而非单一提示的绕过方法。OpenAI表示它实施了一个实时运行的多层安全防护堆栈为企业安全团队设置了有意的操作障碍。• 模型层面的拒绝GPT-5.6 被调校为拒绝被禁的网络帮助包括掩盖恶意意图或尝试越狱式变通的请求。• 实时滥用筛查在生产过程中分别有不同的网络和生物学探测器进行世代的审查。• 基于激活的筛选 对于Sol和TerraOpenAI表示正在添加激活分类器用于在推断过程中监控内部模型信号。如果这些系统检测到风险模式输出流可以暂停等待另一次安全检查。Luna似乎没有接收相同的激活分类器层尽管它仍被其他监控系统覆盖。• 推理审查暂停 当风险升高时生成可以停止而更大的推理系统会检查交换及相关上下文。如果系统将输出归类为不允许答案在到达终点前被阻断。由于合法的防御工作——如代码审查、漏洞发现、补丁工程和防御测试——经常使用与攻击性漏洞完全相同的代码原语OpenAI承认其分类器可能经常触发误报。系统卡显示OpenAI的监控堆栈在其生物评估集上整体召回率为94.8%网络安全评估集整体召回率为81.6%。这些数据为企业提供了罕见的定量保障视角但也显示系统并非完美可能遗漏一些风险案例或阻碍部分合法工作。持续的标记可以触发自动账户级审查涵盖历史对话以评估企业客户是否存在恶意行为或标准安全研究。OpenAI目前正在协商长期的企业安全合规控制措施包括客户操作的安全覆盖和隐私保护检测机制以保护企业数据免受人工审核流程的影响。重要的是OpenAI指出测试中Sol仍优化为防御性遏制而非进攻性部署。在针对Chromium和Firefox代码库的评估中该模型成功隔离了漏洞和利用原语但未能自主工程出功能正常的全链攻击使其安全地控制在组织的“网络关键”警报阈值以下。但三款GPT-5.6模型在内部夺旗测试中均达到了“高”网络阈值Sol达到了96.7%Terra达到91.84%Luna达到85.19%。这一区别对企业安全采购者尤为重要OpenAI将GPT-5.6定位为足够强大能够帮助自动化部分漏洞研究和利用分析但尚未成为一个能够在公司测试条件下无需人工指导即可可靠运行完整高级攻击活动的系统。分阶段发布的地缘政治GPT-5.6系列的更广泛推广反映了前沿AI实验室与国家安全协议之间日益加剧的纠缠。限制对一小部分经过审查的合作伙伴的初步访问这些合作伙伴的详细信息已与美国政府共享这一决定源于对网络行政命令框架的直接协调。OpenAI采取了罕见的举措在其官方产品发布文档中公开批评了这种主权门槛。公司明确表示“我们不认为这种政府访问程序应成为长期默认。它将最优质的工具从用户、开发者、企业、网络防御者以及需要它们的全球合作伙伴手中保留。”这种紧张关系凸显了现代科技企业的脆弱处境。虽然组织可以通过ExploitGym和ExploitBench等基准工具实现前所未有的代理效率和强大的防御补丁能力但也必须接受访问顶级工具仍需外交和监管授权的事实。来源Carl Franzen