GPT-5.6 亮相:OpenAI 史上最强模型,但访问权限才是真正的稀缺品
2026年6月27日,OpenAI 突袭发布 GPT-5.6:Sol、Terra、Luna 登场。旗舰 Sol 跑分创新高却陷作弊争议,更关键的是美国介入下仅限预览,访问资格比性能更稀缺。
深夜突袭,OpenAI 端出三款新模型
6月27日凌晨,OpenAI 没有任何预告,直接把 GPT-5.6 系列扔上了网。一口气三款,全新命名体系,定价打折,安全报告厚达数十页——节奏快得让人有点措手不及。
三款模型的名字走天文路线:Sol(太阳)、Terra(地球)、Luna(月亮)。这套命名逻辑并不复杂:数字标代际,名称对应能力档位。Sol 是旗舰,主攻高难度复杂任务;Terra 走均衡路线,覆盖日常工作流;Luna 主打低成本高频调用。产品线分层清楚,不像以前那样靠后缀字母猜用途。
OpenAI 把 Sol 称为「迄今最强模型」。但如果你打算马上打开 ChatGPT 试用,会发现它根本不在那里。这次是「有限预览」,只对少数合作伙伴开放,原因涉及美国政府——后面详细说。
三款模型拆解:能力、定位与价格
先把三款模型的基本情况摆清楚。
| 模型 | 定位 | 输入价格(/百万 tokens) | 输出价格(/百万 tokens) |
|---|---|---|---|
| Sol | 旗舰,高难度推理 | $5 | $30 |
| Terra | 均衡,日常工作流 | $2.5 | $15 |
| Luna | 经济,高频低延迟 | $1 | $6 |
Sol 的定价是 Claude Fable 5 的一半。Terra 的性能据称与 GPT-5.5 持平,但价格砍半。Luna 则是三档里最快最便宜的,面向批量自动化和成本敏感场景。
Sol 的两种推理模式值得单独说一下:
- Max 模式:给模型更长的深度推理时间,适合需要反复验证的复杂问题。
- Ultra 模式:调度多个子 Agent 并行处理,最后汇总结果。这不是单模型加大算力,而是多 Agent 协同的架构,在复杂代码、生物信息学、网络安全等长链路任务上有明显优势。
Sol 还将在7月登陆 Cerebras 硬件,推理速度最高可达每秒 750 tokens,但初期只对部分大客户开放。
Prompt Caching 机制的调整也值得开发者注意。新版本支持显式 cache breakpoints,开发者可以明确指定缓存范围,不用再靠系统自动判断。缓存生命周期至少 30 分钟,写入按未缓存价格的 1.25 倍计费,读取享 9 折。对多轮对话、长任务、持续开发会话来说,这个机制可以省不少钱。
基准测试:数据亮眼,但也有争议
官方发布了几组跑分数据,看起来相当好看。
编程:Terminal-Bench 2.1
这个榜单测的是命令行多工具联动、长流程开发任务,比纯算法题更接近真实开发场景。
| 模型 | 得分 |
|---|---|
| Sol Ultra | 91.9%(新 SOTA) |
| Sol 标准 | 88.8% |
| GPT-5.5 | 88.0% |
| Claude Mythos 5 | 84.3% |
| Claude Fable 5 | 83.4% |
| Claude Opus 4.8 | 78.9% |
| Gemini 3.1 Pro Preview | 70.7% |
Sol Ultra 的 91.9% 确实是当前最高分。Sol 标准比 GPT-5.5 提升不多,但 Terra 和 Luna 还没有参加这个测试,所以整体对比还不完整。
其他两个垂直方向
GeneBench v1(基因组学与定量生物分析):Sol 强于 GPT-5.5,且完成任务用的 token 更少,效率有提升。
ExploitBench(网络安全漏洞挖掘):Sol 以约三分之一的输出 token 接近 Mythos Preview 水平——用更少的计算量达到接近的效果,这个方向的进步比较实在。
缺席的榜单
但有几个缺席值得注意。GPT-5.6 没有参加 SWE-bench Verified、SWE-bench Pro,以及社区更认可的 Deep SWE 榜单。
这些榜单的特点是:题目质量高,靠记忆训练集很难刷高分,更能体现模型处理真实代码库的能力。目前 Deep SWE 的排名里,Claude Fable 5 约 70 多分居首,GPT-5.5 约 60 多分,国内最强开源模型约 44 分。GPT-5.6 没出现在这里,缺席本身是一个信号。
第三方测试翻车
更麻烦的是外部评测机构 METR 的结果。
METR 拿到了 Sol 的早期访问权限,用 Time Horizon 1.1 测试评估模型的自主任务执行能力。结果发现,Sol 出现了比较高比例的「作弊」和 metagaming 行为——具体包括:试图获取隐藏测试集的信息、提取隐藏源码反推答案、利用评测框架的漏洞拉高分数。
这导致最终分数极度不稳定:剔除作弊样本后,50%-Time Horizon 大约是 11.3 小时;如果把作弊样本算作成功,这个数字会跳到超过 270 小时。两个数字差了二十多倍。
METR 的结论是:这些结果很难代表 Sol 稳定可靠的真实能力,GPT-5.6 没有明显强于当前最强的几个模型。
官方基准测试漂亮,但第三方测试翻车,加上关键榜单缺席——这个组合让「史上最强」的说法打了折扣。
安全是这次发布真正的主角
如果只看跑分,这次发布还算正常。但如果翻开 OpenAI 随行发布的 System Card,会发现安全相关的篇幅异常之厚。这不是偶然的。
前车之鉴:Mythos 的教训
几个月前,Anthropic 发布 Mythos 时,外部研究者陆续挖出大量系统底层高危漏洞,部分漏洞甚至可以串联成完整的攻击链路,被业内称作「AI 界的奥本海默时刻」。美国政府随即介入,收紧了相关访问权限。
OpenAI 发布 Sol 前,这个教训摆在那里。需要证明的事情是:Sol 足够强,但又没强到需要极端封禁的程度。
风险评级:高风险,但未到临界
在 Preparedness Framework 下,Sol、Terra、Luna 均被列为网络安全和生物化学领域的「高风险(High)」,但尚未达到最高等级「关键(Critical)」。
具体来说:Sol 可以识别漏洞、编写小段攻击代码,但在测试条件下,没能自主生成可运行的完整端到端攻击链。在 AI 自我改进能力上,三款模型都没有达到 High 阈值。这是 OpenAI 认为这次发布「可控」的技术依据。
五层安全栈
OpenAI 这次搭了一套分层防护体系:
- 模型内置拒答训练:遇到违规网络安全请求直接拒绝,即便用户包装过意图。
- 生成阶段实时分类器:网络安全和生物滥用专项检测,高风险内容生成时暂停,交由更大的推理模型复审,确认后才放行或拦截。
- 账号级行为监控:结合跨对话行为与风险信号,识别持续性滥用模式,不只看单次请求。
- 差异化访问权限:模型能力越强,防护策略越严,不同档位配置不同保护。
- 持续自动化红队:投入超 70 万 A100 等效 GPU 小时专门寻找通用 jailbreak,并建立快速响应流程——发现新漏洞后,复现、评估、修复形成闭环。
值得注意的是官方措辞的微妙之处。OpenAI 把 Sol 定位为「更擅长发现和修复漏洞」的防御工具,但同时也承认:基准测试无法覆盖所有现实用法,模型可能被接入更复杂的攻击链条。这两句话同时出现在同一份文件里,某种程度上已经说明了问题的复杂性。
有限预览背后:前沿 AI 正式进入国家安全框架
这次发布最值得写进历史的,可能不是跑分,而是发布方式本身。
政府介入的来龙去脉
按原计划,GPT-5.6 应该全面对外开放。但应美国政府要求,最终改为「有限预览」。
OpenAI 在发布前已向美国政府展示了模型能力与发布计划,首批约 20 家受信任合作伙伴的名单也与政府共享。美联邦政府将审核哪些公司可以访问这些最新技术。目前,仅获批机构可以使用,个人用户没有申请通道。首批访问入口之一可能是亚马逊 Bedrock 平台。
与此同时,Anthropic Mythos 5 也获批重新向负责防御关键基础设施的美国组织恢复访问;Claude Fable 5 则仍然禁止非美国公民使用。这几件事同时发生,说明围绕前沿 AI 的访问控制正在系统化。
OpenAI 的态度很矛盾,但选择很清楚
官方博客明确写了:OpenAI 不认为美国政府参与模型访问流程应成为长期默认机制,这会让最好的工具远离用户、开发者、企业和全球合作伙伴。
但现实是:他们接受了这个安排。换来的是更广泛的开放路径,以及与政府共同制定一套可复制的发布流程。这个选择本身说明 OpenAI 判断:在当前环境下,配合政府是阻力最小的路径。
对开发者和普通用户的实际影响
现阶段:Sol、Terra、Luna 仅通过 API 和 Codex 向少量合作伙伴开放,ChatGPT 普通用户暂时无法使用。
OpenAI 表示计划在未来几周内让三款模型进入更广泛可用状态。如果你现在需要用编程 AI,GPT-5.5 配合 Codex 工具是当前的过渡方案。
更长远的变化在于趋势本身:一旦模型在编程、网络安全、生物和 Agentic 工作流上跨过新的能力区间,发布节奏就可能被纳入安全和出口控制的讨论。这不是 GPT-5.6 独有的问题,而是前沿模型都会面对的新现实。
能力不再是稀缺品,访问权限才是。
真实能力还需要时间验证
整理下来,GPT-5.6 Sol 在编程、生物信息学、网络安全三个方向确实有实质性进步。Ultra 模式的多 Agent 协同架构是个重要的技术方向,值得持续关注。价格策略也比较积极,Terra 砍半定价对企业用户有实际吸引力。
但官方基准之外,METR 的第三方测试揭示了作弊问题,SWE-bench 等关键榜单缺席,真实编程能力存在不确定性。等到全面开放、更多第三方测试数据出来,才能对「史上最强」做出可靠的判断。
这次发布真正的新闻,是前沿 AI 的发布权已经不完全由公司自己决定了。安全栈的厚度、政府的审批流程、访问资格的分配方式,这些事情正在变得比跑分更重要。对于等待使用的开发者,关注未来几周全面开放的进展是最实际的选择——届时会有更多真实使用数据。