Anthropic 发布 Claude Fable 5:最强公开模型的「神话」与现实
2026年6月9日,Anthropic发布Claude Fable 5,首个公开Mythos级模型。SWE-Bench Pro 80.3%,代码迁移可从2个月缩至1天;但定价远高于DeepSeek,安全机制也引发争议。
没有预热的「神话」降临
北京时间2026年6月10日凌晨,Anthropic几乎没有任何预热地发布了Claude Fable 5。没有提前泄露的截图,没有开发者预览版,也没有倒计时直播。官网直接上线,公告随之发出。
这次发布有一个特殊背景:Fable 5是同系列Mythos 5的公开版本,而Mythos此前因为能力过于强大,一直被Anthropic限制在「Project Glasswing」计划内,仅供少数受信任的安全机构使用。Fable 5与Mythos 5本质上是同一个模型,区别只在于前者加了一层分类器安全防护。
换句话说,Anthropic决定把原本觉得「太危险」的东西,加上护栏之后推向公众市场。
跑分:每一项都在拉开距离
性能数据是最直接的比较方式。以下是Fable 5与GPT 5.5在几个关键基准上的对比:
| 基准测试 | Fable 5 | GPT 5.5 |
|---|---|---|
| SWE-Bench Pro | 80.3% | 58.6% |
| FrontierCode Diamond | 29.3% | 5.7% |
| Terminal-Bench 2.1 | 88.0% | 83.4%(Codex CLI) |
| ExploitBench Cap% | 78.0% | 34.0% |
| GDP.pdf(视觉) | 29.8% | — |
| Blueprint-Bench 2(视觉) | 38.6% | — |
| BioMysteryBench hard(生物) | 46.1% | — |
SWE-Bench Pro这个差距尤其值得关注。这个基准测的是在真实代码库上修复 bug 和实现功能,80.3% 对 58.6%,不是小幅超越,是代差级别的领先。
FrontierCode Diamond 更极端:Fable 5 得了 29.3%,GPT 5.5 只有 5.7%。这个基准专门设计来考察模型处理高难度编程问题的能力,差距接近五倍。
有一个规律在数据里很明显:任务越长、越复杂,Fable 5 的优势越大。Terminal-Bench 2.1 这种短任务两者相差不到 5 个百分点,但涉及多步骤工程任务的基准,差距就拉开到 20 分以上。这和 Anthropic 宣传的「长任务能力」方向一致。
安全与生物方向的跑分同样值得单独说一下——不是因为普通用户会用到,而是这些数字说明模型底层的推理能力已经触及非常敏感的知识边界,这也是为什么安全防护层的存在不是噱头。
实战能力:工程品味的升级
跑分之外,更直观的是实际工程案例。
Stripe 是目前被引用最多的真实案例。他们用 Fable 5 处理了一个 5000 万行 Ruby 代码库的迁移工作,原本预计需要两个月,实际完成时间压缩到了一天。这不是「辅助开发者写代码」,而是模型自主跑完了大量迁移步骤——读代码、理解依赖关系、改写、验证、处理边界情况——中间几乎不需要人工干预。
Argument Code 测试也给出了类似信号。在接近 500 个真实编程任务的评测中,Fable 5 在正确率、综合得分和完成速度三个维度同时排第一。
视觉能力也有实质提升。从截图重建网页应用的源码,或者从科学图表里提取精确数值——这两件事以前大模型做得很糟糕,Fable 5 的表现明显更稳。
百万 token 的上下文窗口本身不算新鲜,但 Anthropic 特别强调了「持久内存」配置下的效果:搭配持久内存,性能提升约三倍。这意味着在长期运行的 agent 任务里,模型能维持更长时间的有效注意力,不会在几十轮对话后开始「失忆」。
演示案例:生成能力到底变了多少
最能说明质变的,是几个具体的生成演示。
Minecraft 复刻:55 分钟内,用 52,400 个 tokens,从零生成了一个包含昼夜循环、河流地形、生物群落的 Minecraft 类游戏原型。这不是「生成游戏截图」,而是可运行的代码。
Voxel 3D 世界生成:生成的体素世界里,建筑有窗户、有颜色差异、有层次细节。以往模型生成的 3D 内容经常是「概念级别」的——结构大体对,细节完全不对。Fable 5 的输出细节丰富度远超以往版本。
恐龙快跑手势控制版:用 914,000 个 tokens 和 629 行代码,11 到 12 分钟内实现了一个用手势识别控制的恐龙快跑游戏。摄像头捕捉手部动作,实时映射到游戏操作。整个交互逻辑、手势识别模型调用、游戏物理一次性完成。
这几个演示的共同特点是:代码可以直接跑,不需要大量后期调试。有人评价说,生成效果已经像是专业游戏团队花了数千美元做出来的东西。这话有夸张成分,但方向上并不离谱。
安全防护:给「神话」加上护栏
Fable 5 的安全层设计比「加个过滤词表」复杂得多。
Anthropic 部署了一套分类器系统,专门监测三大敏感领域的对话:网络安全、生物化学、模型蒸馏(即用输出数据训练竞争模型)。一旦触发,对话不会直接被拒绝,而是转交给 Claude Opus 4.8 处理。
这个设计挺有意思。直接拒绝是最简单的做法,但用户体验很差,也会误伤大量正当请求。转交给能力稍弱的模型,等于在「不能回答」和「完整回答」之间设了一个缓冲区——能说的还是说,不该说的被限制住。
根据 Anthropic 公布的数据,安全防护机制平均在不到 5% 的对话中触发。超过 95% 的时间里,用户拿到的是完整的 Fable 5 体验。
不过有两个使用限制需要注意:Fable 5 不支持零数据保留,数据保留期最短 30 天;Mythos 5(无安全护栏的原版)只对受信任的防御机构和政府机构开放,普通用户和企业无法申请。
网络安全方向,Anthropic 透露 Mythos 级别的模型已经发现了主要操作系统和浏览器中的大量高危漏洞。生物方向,模型能预测基因变异对病毒外壳组装的影响,据称可以将药物设计流程提速约十倍。这些能力听起来是正面的,但放在没有护栏的模型上,就是 Anthropic 一直不敢公开 Mythos 的原因。
定价:反向操作
AI 行业在 2026 年上半年整体走向价格战。DeepSeek、Google、小米等厂商都在压低 API 价格。Anthropic 选择了反方向。
Fable 5 的定价:每百万输入 token 10 美元,输出 50 美元。这是 Claude Opus 4.8 的两倍。
和市场上其他主流模型对比一下:
| 模型 | 输入(每百万 token) | 输出(每百万 token) |
|---|---|---|
| Claude Fable 5 | $10 | $50 |
| Claude Opus 4.8 | $5 | $25 |
| GPT 5.5 | 约 $7.5 | 约 $30 |
| DeepSeek V4-Pro | $0.435 | $0.87 |
| Gemini 3.5 Flash | 约 $0.15 | 约 $0.6 |
和 DeepSeek V4-Pro 比,Fable 5 的输出价格贵了将近 57 倍。
Anthropic 的定价逻辑不难理解:Stripe 把两个月工程压缩成一天,哪怕跑了几百万 token,和工程师的人力成本比起来还是便宜的。所以 Fable 5 卖的不是 token,卖的是某类高价值任务里的时间压缩能力。
6 月 22 日之前,Pro、Max、Team 订阅用户可以免费使用 Fable 5。之后需要按 API 调用付费,或者通过企业合约约定配额。
这个价格策略的赌注在于:只有真的能替代相当数量的人工工时,用户才愿意持续付这个钱。如果 Fable 5 只是「跑分更好的聊天机器人」,这个价格很难长期成立。
市场冲击:两种玩法的分化
Fable 5 的发布把 AI 模型市场推向了一个更明确的分层格局。
OpenAI 的 Codex 周活用户超过 500 万,生态已经相当成熟。但在 agent 编码和长任务上,Fable 5 的跑分优势是实质性的,不是边际差异。对 OpenAI 来说,这是真实的压力点。
Google 的处境有点尴尬。Gemini 3.1 Pro 在多项基准上落后,但 Google 的优势在于生态——搜索、文档、云服务的深度整合。这是 Fable 5 短期内很难复制的。
国产模型这边,DeepSeek V4 在传统基准上已经接近国际顶尖水平,价格极具竞争力。但在复杂多步骤工程任务上,差距仍然存在。这个差距是否会随着下一代模型缩小,是接下来几个月的观察点。
行业里正在形成一个清晰的分工:便宜的模型覆盖大量日常任务,贵的模型抢最难的那 5% 到 10%。Anthropic 的选择是不参与每一场价格战,而是把 Fable 5 做成某类高价值任务里的「必选项」。
这意味着未来企业的模型采购策略会发生变化。以前可能只需要选一个性价比最好的通用模型,现在可能需要同时维护两类:便宜稳定的来处理大量常规请求,昂贵强悍的来处理真正复杂的工程问题。
开放与管控的平衡账
Fable 5 这次发布最值得关注的,不完全是跑分,而是 Anthropic 的一整套处理方式:把一个原本认为「太危险」的模型,通过精细的安全分层推向公众市场。
30 天数据保留、分类器转接而非直接拒绝、Mythos 5 只给防御机构——这些设计组合在一起,构成了一套「广泛开放但核心管控」的策略。这和那种直接开放全能力、出了问题再说的做法完全不同。
对企业买家来说,Fable 5 实际上设了一道门槛:不支持零数据保留,意味着数据合规要求高的行业(金融、医疗、政府)使用起来需要额外评估。这部分用户可能反而要等 Anthropic 推出符合更严格数据隔离要求的部署方案。
能力边界推进、价格分层、安全管控——这三件事同时发生,说明 AI 模型市场的竞争维度已经不只是「谁的跑分高」。Anthropic 用 Fable 5 把这个问题推到了台前:一个足够强大的模型,卖给谁、卖多贵、出了问题谁来负责,答案同样重要。