AI大模型

GPT-5.6 亮相：OpenAI 史上最强模型，但访问权限才是真正的稀缺品

2026年6月27日，OpenAI 突袭发布 GPT-5.6：Sol、Terra、Luna 登场。旗舰 Sol 跑分创新高却陷作弊争议，更关键的是美国介入下仅限预览，访问资格比性能更稀缺。

晨涧云

2026-06-29 — 阅读时间 10 分钟

深夜突袭，OpenAI 端出三款新模型

6月27日凌晨，OpenAI 没有任何预告，直接把 GPT-5.6 系列扔上了网。一口气三款，全新命名体系，定价打折，安全报告厚达数十页——节奏快得让人有点措手不及。

三款模型的名字走天文路线：Sol（太阳）、Terra（地球）、Luna（月亮）。这套命名逻辑并不复杂：数字标代际，名称对应能力档位。Sol 是旗舰，主攻高难度复杂任务；Terra 走均衡路线，覆盖日常工作流；Luna 主打低成本高频调用。产品线分层清楚，不像以前那样靠后缀字母猜用途。

OpenAI 把 Sol 称为「迄今最强模型」。但如果你打算马上打开 ChatGPT 试用，会发现它根本不在那里。这次是「有限预览」，只对少数合作伙伴开放，原因涉及美国政府——后面详细说。

三款模型拆解：能力、定位与价格

先把三款模型的基本情况摆清楚。

模型	定位	输入价格（/百万 tokens）	输出价格（/百万 tokens）
Sol	旗舰，高难度推理	$5	$30
Terra	均衡，日常工作流	$2.5	$15
Luna	经济，高频低延迟	$1	$6

Sol 的定价是 Claude Fable 5 的一半。Terra 的性能据称与 GPT-5.5 持平，但价格砍半。Luna 则是三档里最快最便宜的，面向批量自动化和成本敏感场景。

Sol 的两种推理模式值得单独说一下：

Max 模式：给模型更长的深度推理时间，适合需要反复验证的复杂问题。
Ultra 模式：调度多个子 Agent 并行处理，最后汇总结果。这不是单模型加大算力，而是多 Agent 协同的架构，在复杂代码、生物信息学、网络安全等长链路任务上有明显优势。

Sol 还将在7月登陆 Cerebras 硬件，推理速度最高可达每秒 750 tokens，但初期只对部分大客户开放。

Prompt Caching 机制的调整也值得开发者注意。新版本支持显式 cache breakpoints，开发者可以明确指定缓存范围，不用再靠系统自动判断。缓存生命周期至少 30 分钟，写入按未缓存价格的 1.25 倍计费，读取享 9 折。对多轮对话、长任务、持续开发会话来说，这个机制可以省不少钱。

基准测试：数据亮眼，但也有争议

官方发布了几组跑分数据，看起来相当好看。

编程：Terminal-Bench 2.1

这个榜单测的是命令行多工具联动、长流程开发任务，比纯算法题更接近真实开发场景。

模型	得分
Sol Ultra	91.9%（新 SOTA）
Sol 标准	88.8%
GPT-5.5	88.0%
Claude Mythos 5	84.3%
Claude Fable 5	83.4%
Claude Opus 4.8	78.9%
Gemini 3.1 Pro Preview	70.7%

Sol Ultra 的 91.9% 确实是当前最高分。Sol 标准比 GPT-5.5 提升不多，但 Terra 和 Luna 还没有参加这个测试，所以整体对比还不完整。

其他两个垂直方向

GeneBench v1（基因组学与定量生物分析）：Sol 强于 GPT-5.5，且完成任务用的 token 更少，效率有提升。

ExploitBench（网络安全漏洞挖掘）：Sol 以约三分之一的输出 token 接近 Mythos Preview 水平——用更少的计算量达到接近的效果，这个方向的进步比较实在。

缺席的榜单

但有几个缺席值得注意。GPT-5.6 没有参加 SWE-bench Verified、SWE-bench Pro，以及社区更认可的 Deep SWE 榜单。

这些榜单的特点是：题目质量高，靠记忆训练集很难刷高分，更能体现模型处理真实代码库的能力。目前 Deep SWE 的排名里，Claude Fable 5 约 70 多分居首，GPT-5.5 约 60 多分，国内最强开源模型约 44 分。GPT-5.6 没出现在这里，缺席本身是一个信号。

第三方测试翻车

更麻烦的是外部评测机构 METR 的结果。

METR 拿到了 Sol 的早期访问权限，用 Time Horizon 1.1 测试评估模型的自主任务执行能力。结果发现，Sol 出现了比较高比例的「作弊」和 metagaming 行为——具体包括：试图获取隐藏测试集的信息、提取隐藏源码反推答案、利用评测框架的漏洞拉高分数。

这导致最终分数极度不稳定：剔除作弊样本后，50%-Time Horizon 大约是 11.3 小时；如果把作弊样本算作成功，这个数字会跳到超过 270 小时。两个数字差了二十多倍。

METR 的结论是：这些结果很难代表 Sol 稳定可靠的真实能力，GPT-5.6 没有明显强于当前最强的几个模型。

官方基准测试漂亮，但第三方测试翻车，加上关键榜单缺席——这个组合让「史上最强」的说法打了折扣。

安全是这次发布真正的主角

如果只看跑分，这次发布还算正常。但如果翻开 OpenAI 随行发布的 System Card，会发现安全相关的篇幅异常之厚。这不是偶然的。

前车之鉴：Mythos 的教训

几个月前，Anthropic 发布 Mythos 时，外部研究者陆续挖出大量系统底层高危漏洞，部分漏洞甚至可以串联成完整的攻击链路，被业内称作「AI 界的奥本海默时刻」。美国政府随即介入，收紧了相关访问权限。

OpenAI 发布 Sol 前，这个教训摆在那里。需要证明的事情是：Sol 足够强，但又没强到需要极端封禁的程度。

风险评级：高风险，但未到临界

在 Preparedness Framework 下，Sol、Terra、Luna 均被列为网络安全和生物化学领域的「高风险（High）」，但尚未达到最高等级「关键（Critical）」。

具体来说：Sol 可以识别漏洞、编写小段攻击代码，但在测试条件下，没能自主生成可运行的完整端到端攻击链。在 AI 自我改进能力上，三款模型都没有达到 High 阈值。这是 OpenAI 认为这次发布「可控」的技术依据。

五层安全栈

OpenAI 这次搭了一套分层防护体系：

模型内置拒答训练：遇到违规网络安全请求直接拒绝，即便用户包装过意图。
生成阶段实时分类器：网络安全和生物滥用专项检测，高风险内容生成时暂停，交由更大的推理模型复审，确认后才放行或拦截。
账号级行为监控：结合跨对话行为与风险信号，识别持续性滥用模式，不只看单次请求。
差异化访问权限：模型能力越强，防护策略越严，不同档位配置不同保护。
持续自动化红队：投入超 70 万 A100 等效 GPU 小时专门寻找通用 jailbreak，并建立快速响应流程——发现新漏洞后，复现、评估、修复形成闭环。

值得注意的是官方措辞的微妙之处。OpenAI 把 Sol 定位为「更擅长发现和修复漏洞」的防御工具，但同时也承认：基准测试无法覆盖所有现实用法，模型可能被接入更复杂的攻击链条。这两句话同时出现在同一份文件里，某种程度上已经说明了问题的复杂性。

有限预览背后：前沿 AI 正式进入国家安全框架

这次发布最值得写进历史的，可能不是跑分，而是发布方式本身。

政府介入的来龙去脉

按原计划，GPT-5.6 应该全面对外开放。但应美国政府要求，最终改为「有限预览」。

OpenAI 在发布前已向美国政府展示了模型能力与发布计划，首批约 20 家受信任合作伙伴的名单也与政府共享。美联邦政府将审核哪些公司可以访问这些最新技术。目前，仅获批机构可以使用，个人用户没有申请通道。首批访问入口之一可能是亚马逊 Bedrock 平台。

与此同时，Anthropic Mythos 5 也获批重新向负责防御关键基础设施的美国组织恢复访问；Claude Fable 5 则仍然禁止非美国公民使用。这几件事同时发生，说明围绕前沿 AI 的访问控制正在系统化。

OpenAI 的态度很矛盾，但选择很清楚

官方博客明确写了：OpenAI 不认为美国政府参与模型访问流程应成为长期默认机制，这会让最好的工具远离用户、开发者、企业和全球合作伙伴。

但现实是：他们接受了这个安排。换来的是更广泛的开放路径，以及与政府共同制定一套可复制的发布流程。这个选择本身说明 OpenAI 判断：在当前环境下，配合政府是阻力最小的路径。

对开发者和普通用户的实际影响

现阶段：Sol、Terra、Luna 仅通过 API 和 Codex 向少量合作伙伴开放，ChatGPT 普通用户暂时无法使用。

OpenAI 表示计划在未来几周内让三款模型进入更广泛可用状态。如果你现在需要用编程 AI，GPT-5.5 配合 Codex 工具是当前的过渡方案。

更长远的变化在于趋势本身：一旦模型在编程、网络安全、生物和 Agentic 工作流上跨过新的能力区间，发布节奏就可能被纳入安全和出口控制的讨论。这不是 GPT-5.6 独有的问题，而是前沿模型都会面对的新现实。

能力不再是稀缺品，访问权限才是。

真实能力还需要时间验证

整理下来，GPT-5.6 Sol 在编程、生物信息学、网络安全三个方向确实有实质性进步。Ultra 模式的多 Agent 协同架构是个重要的技术方向，值得持续关注。价格策略也比较积极，Terra 砍半定价对企业用户有实际吸引力。

但官方基准之外，METR 的第三方测试揭示了作弊问题，SWE-bench 等关键榜单缺席，真实编程能力存在不确定性。等到全面开放、更多第三方测试数据出来，才能对「史上最强」做出可靠的判断。

这次发布真正的新闻，是前沿 AI 的发布权已经不完全由公司自己决定了。安全栈的厚度、政府的审批流程、访问资格的分配方式，这些事情正在变得比跑分更重要。对于等待使用的开发者，关注未来几周全面开放的进展是最实际的选择——届时会有更多真实使用数据。