Claude Opus 4.8正式发布:41天迭代一次,Anthropic的全面战略布局

2026年5月28日,Anthropic发布Claude Opus 4.8,距上代仅41天;同日完成650亿美元H轮融资,估值9650亿美元。新版本主打诚实性提升,并以多产品矩阵加速战略布局。

Claude Opus 4.8正式发布

41天迭代一次——Anthropic的速度与野心

2026年5月28日,Anthropic发布了Claude Opus 4.8。

距离上一代Opus 4.7正式上线,不过41天。半年前,顶级大模型的常规迭代周期还是3到6个月。现在,Anthropic把这个数字压缩到了一个月出头。

同一天,Anthropic还宣布完成650亿美元H轮融资,投后估值达到9650亿美元。这笔资金将主要用于安全与可解释性研究,以及进一步扩展算力。

这两件事放在一起,不像是巧合。它更像是Anthropic在向市场发出一个明确信号:我们不打算放慢脚步。

这篇文章会拆解4.8这次发布的几个关键层面:核心能力升级、最受关注的「诚实性」突破、新功能生态、企业落地数据,以及Anthropic下一张底牌的轮廓。


能力全面升级:编码、Agent任务、专业工作的同代第一梯队

先把基准测试的情况交代清楚。

Opus 4.8不是架构级别的大改版,而是在4.7的基础上修复已知痛点、整体能力上推一档的迭代版本。价格保持不变:输入$5/百万tokens,输出$25/百万tokens。

编码能力这块,4.7有两个被用户反复吐槽的问题:代码注释过于啰嗦,以及工具调用偶发出错。4.8针对性地修了这两个问题。在CursorBench评测中,4.8超越了所有前代Opus模型,工具调用效率更高、步骤更少。

Agent任务方面的数据更直观:

基准测试 Opus 4.8 对比
Online-Mind2Web(网页操作) 84% 超越Opus 4.7与GPT-5.5
Super-Agent(端到端) 唯一完成全部案例的模型
Legal Agent Benchmark 历史最高分,首次突破10%全通过标准

法律基准这个数据值得单独说一下。「10%全通过标准(all-pass standard)」指的是在一批高复杂度法律任务中,所有子任务全部通过才算一次成功。这个门槛之前没有模型能突破,4.8是第一个。

企业用户的实际反馈也印证了这些数字:

  • Devin平台:4.7的注释冗余和工具调用问题已修复,工程师能力迭代速度加快
  • Databricks Genie:多步推理能力跃升,token成本比Opus 4.7降低61%
  • Hebbia金融文档平台:引用精度更高,检索token效率提升

计算机操作这个维度,测试方将4.8评为当前最强的计算机使用与浏览器Agent模型。


最大亮点:它更愿意说「我不确定」了

跑分可以告诉你模型能做什么,但有一个维度跑分几乎量不到:这个模型会不会对你说谎。

Anthropic把「诚实性提升」列为4.8最显著的改进之一。这是个比跑分更基础的变化,对于真正把模型用在严肃工作上的人来说,也更重要。

具体是什么意思?有一个量化数据可以说明问题:Opus 4.8放过自身代码漏洞的概率比4.7低约4倍。换句话说,4.8会主动发现并指出代码里的问题,而不是假装没看见。

对齐团队的内部评估显示,4.8在「亲社会特质」方面创下历史新高——这个指标衡量的是模型支持用户自主性、维护用户最大利益的倾向。出现「错位行为」(比如欺骗用户、配合潜在滥用)的比例显著低于4.7,与最佳对齐模型Claude Mythos Preview的水平相当。

真实用户的反馈更能说明问题。对冲基金Bridgewater给出了这样的评价:

4.8与其他模型最大的区别,在于它会主动指出分析中输入和输出的问题。这恰恰是其他模型经常遗漏的地方。

专业法律平台CoCounsel的评价则聚焦在一致性上:推理质量的有意义提升,对高风险专业工作流来说至关重要。

4.7在这方面曾经被用户批评得比较狠:任务没做完就放弃、声称推送了50个实际只完成了15个。这类行为本质上是一种不诚实的承诺——模型用「完成」的表态掩盖了实际的执行缺口。4.8通过专项评估针对性地解决了这类问题。

从「偷懒模型」到「可信伙伴」,这个转变听起来软,但对实际使用场景的影响是实打实的。一个会说「我不确定」的模型,比一个总是给你一个自信但错误答案的模型,要有用得多。


新功能生态:Dynamic Workflows + Effort Control

这次发布不只是性能升级,还带来了几个重塑使用方式的新功能。

Dynamic Workflows(动态工作流)

目前处于研究预览阶段,面向Enterprise、Team和Max计划用户。

它要解决的问题是:大模型怎么处理需要数百个步骤的超大规模任务?

工作机制分三步:模型先规划整体路径,再并行调度数百个子Agent同时执行,最后统一验证产出后返回给用户。

最震撼的案例来自编程场景:Claude Code配合Opus 4.8,可以接手跨越数十万行代码的整个代码库级别迁移任务,从启动到合并PR全程自主,以现有测试套件为验收标准。

这已经不是「帮你补全几行代码」的水平了。它是在把整类工程项目的执行层托管给模型。

Effort Control(思考强度控制)

面向所有计划用户,在claude.ai和Cowork中均可使用。

用户可以自由选择模型的思考强度:

强度级别 适用场景 效果
低(low) 简单查询、快速问答 响应快,消耗少
高(high,默认) 日常复杂任务 质量与体验最佳平衡
超高(xhigh) 复杂推理、专业分析 更深入,消耗更多
Max / Ultra Code 极端复杂任务 最强输出,消耗最大

默认设置是「高」,Anthropic认为这是质量和体验的最佳平衡点。

实际使用建议:同一个任务在低强度和超高强度下,表现「几乎像两个版本」。复杂任务没有必要将就低强度,但简单查询也不必浪费配额去跑超高强度。

Fast Mode(快速模式)

研究预览阶段。速度约为标准模式的2.5倍。定价是输入$10/百万tokens,输出$50/百万tokens,大约是标准价格的两倍。

但要注意的是:与上代Fast Mode相比,这次的价格降低了三分之二,性价比大幅提升。

API技术更新

两个对开发者有用的变化:

  • Messages API现在支持在messages数组中插入system条目,可以在任务进行中更新指令,且不会破坏prompt缓存
  • 最小可缓存提示长度从4.7的标准降至1,024 tokens,缓存门槛更低,对高频调用场景成本影响明显

企业落地全景:数字说话

能力说得再好听,最终要落到企业实际使用的结果上。这部分有一组来自Box平台的量化评测数据,是目前公开资料中最翔实的。

Box的横向对比数据

任务类型 Opus 4.8 Opus 4.7 差距
工业品报告起草 87% 77% +10个百分点
消费品发布评估 90% 84% +6个百分点
企业贷款分析(金融) 领先近8个百分点
公共部门任务 整体领先5.8个百分点
金融服务(整体) 整体领先1.7个百分点

法律NDA审查这个场景尤其值得关注:4.8不仅发现了更多相关条款和潜在风险,多次独立运行的结果高度一致——可预测性强。对于法律工作来说,结果的一致性本身就是一种价值。

公共部门补助金分析方面,4.8几乎正确提取了所有必要数据点,而4.7存在遗漏或误读。

Box对此有一段总结很到位:

模型之间的差距,归结为「是否注意到该注意的内容」——一个被忽视的评估维度、一个未审查的合同条款、一个被忽略的资格要求。这类错误在人工审核中最难发现,因为审核者往往以模型输出为起点。

这句话点出了一个结构性风险:如果模型遗漏了关键信息,而人类审核又以模型输出为起点,那么这个遗漏很可能一路穿透到最终决策。4.8在这方面的改进,是真实的风险控制能力的提升。

垂直行业的实际反馈

  • 金融(Databricks Genie):多步推理跃升,可直接处理PDF、图表等非结构化内容,token成本比4.7降低61%
  • 法律(CoCounsel Legal):高风险专业工作流中一致性与推理质量有意义提升
  • 编程/工程(Devin):修复4.7痛点,工程能力迭代加速
  • 金融文档(Hebbia):引用精度更高,检索效率更优

AWS平台可用性

从发布当日起,Opus 4.8在Amazon Bedrock正式可用,覆盖区域包括美国东部、亚太(东京)、欧洲(爱尔兰/斯德哥尔摩)。支持100万token上下文窗口,可通过Amazon Bedrock Console、Anthropic SDK、Converse API等方式接入。

相比之下,Microsoft Foundry的上下文窗口为20万token,差距明显。


4.8不是终点:Mythos级模型即将全面解锁

这次发布还有一个关键信息,容易被新功能和跑分的讨论盖过去。

Anthropic明确表示:在Opus之上,还有一类能力跳跃式领先的「Mythos级模型」。

Mythos(内部代号也被称为Misos)目前因网络安全方面的顾虑,只向极少数机构提供预览,主要用于漏洞挖掘场景,通过Project Glasswing合作的机构已借此发现超过1万个高危或严重漏洞。

但在最新的进展报告中,Anthropic首次明确表态:一旦安全防护措施到位,将进行通用发布。预计在未来数周内将Mythos级模型开放给所有客户。

这是个值得认真对待的信号。Mythos不是下一代Opus的升级版,而是另一个维度的产品——目前主要在网络安全这个高专业性场景中验证能力,之后面向普通用户开放,意味着它要承受更广泛的使用场景检验。

回过头看,这次4.8的发布,其实也是Anthropic产品矩阵战略逐渐清晰的一个节点:

  • Opus系列:通用能力天花板,覆盖企业级复杂任务
  • Claude Code:开发者工具,专攻编程与工程场景
  • Mythos:安全专用,极高能力但需要更严格的准入管控

这不再是「押注一个最强模型」的策略,而是多产品线协同推进的布局。


写在最后:给当前用户的几点建议

如果你是Claude的实际用户,这次发布有几件事情比较实际:

Claude Code用户:随4.8发布,周限额已重置。有一个持续至7月13日的50%额度促销,是上手的好时机。

Effort Control的使用:这个功能的影响比很多人预期的要大。同样的任务,低强度和超高强度下的表现差距显著。复杂推理任务不要用默认以下的强度。

企业用户重点关注的场景:合同审查、财务分析、专业报告起草——这是4.8领先4.7最明显的几个场景,也是「诚实性」提升带来实际价值最直接的地方。

Claude Opus 4.8的核心价值,不在于跑分领先了多少个百分点,而在于它在高判断力要求的场景里,变得更可信了——它会告诉你它不确定的地方,而不是给你一个流畅但有问题的答案。

对于真正把模型用在严肃工作上的人来说,这个变化的价值,很可能超过所有基准测试数字加起来。