AI大模型

Claude Opus 4.6 vs GPT 5.3 Codex：AI编程大战的29分钟

本文通过Base64解码、古诗词创作、逻辑推理、UI复刻、游戏开发、Bug排查等多维度实测对比刚刚发布的Claude Opus 4.6和GPT 5.3。Opus 4.6在UI设计和可视化方面表现突出，拥有100万Token超大上下文；GPT 5.3 Codex则在代码规范、响应速度上领先，且成本降低50%。

晨涧云

2026-02-09 — 阅读时间 15 分钟

同日发布的较量

2026年初的这个凌晨注定不平凡。

凌晨1点45分，Anthropic官宣Claude Opus 4.6上线。仅仅29分钟后，OpenAI就发布了GPT 5.3 Codex。这个时间差巧到让人怀疑——这真的只是巧合吗？

从产品策略来看，OpenAI的这次发布更像是一次精准狙击。Claude刚蹲下，OpenAI就从后面捅了过来。残酷，但这就是AI大战的常态。

基础能力对比

知识库与上下文

两个模型在知识储备上各有侧重。Opus 4.6的训练数据截止到2025年初，与上一代Opus 4.5基本持平。GPT 5.3的通用知识则截止到2024年6月。

真正的差距体现在上下文窗口上。Opus 4.6首次实现了100万Token的上下文，这是Claude系列第一次真正超越GPT系列。相比之下，根据以往版本推测，GPT 5.3 Codex的上下文应该在40万左右。

这意味着什么？更长的上下文可以处理更复杂的代码库，可以一次性阅读更多文档。对于大型项目来说，这是实打实的优势。

同时，Opus 4.6的输出Token从64K翻倍到128K，支持更长的任务不中断。这些看起来像是"锦上添花"的升级，但对实际使用体验的提升确实明显。

性能表现

在TB 2.0的跑分测试中，Codex 5.3得分76%，Opus 4.6是65.4%。但更值得关注的是Codex的提升幅度——从上一代的64.7%直接跃升到76%，这个进步确实巨大。

OS Word测试反映的是操作计算机系统的能力。Opus 4.6得分72.7，已经接近人类一般水平（72.36）。GPT 5.3 Codex的得分是64，但需要注意的是，它测试的是更难的OS Word Verified版本，实际能力应该与Opus 4.6不相上下。

基础测试：谁更聪明？

Base64解码

这是个简单但能看出基础能力的测试。给两个模型一串base64编码的字符串，要求不调用工具、不编程，直接解码。

GPT 5.3几乎秒回，正确解码出"all in AI"。Opus 4.6速度稍慢，但同样给出了正确答案。这个题目没有难倒任何一方。

中文古诗词创作

用词牌《长相思》写一首描述寒冬离去、春天到来的宋词，要求严格遵循词牌格律。

GPT 5.3的响应速度是9.36秒，立即给出：

雪垂戎，冰垂戎，一夜东风吹小红，柳丝摇暖空。

燕生葱，莺生葱，寒尽江南芳信通，满城花影中。

格律完全正确，押韵工整。

Opus 4.6思考时间稍长，给出的版本是：

雪已融，冰已融，融进天涯起渡东，东风送暖农。

花渐红，杏渐红，十里春光细雨中，小桥杨柳风。

同样遵循格律，但"花渐红，杏渐红"这句感觉有些生硬，像是硬拼凑起来的。总体来看，GPT 5.3在这轮测试中略胜一筹。

逻辑推理：灯泡前缀编码谜题

这是个复杂的推理题。两个模型都给出了正确答案：最少需要27个灯泡。它们都展示了详细的解题步骤，这个难度没能拦住任何一方。

改进版农夫过河问题

这是在经典题目基础上增加了难度。以往很多大模型都无法正确回答。

两个模型都给出了正确的过河方案：先带羊，再带鸡，然后带老虎，接着带蛇，最后带苹果。步骤完全一致，都没有出错。

但在呈现方式上有明显差异。GPT 5.3很快给出了文字步骤。Opus 4.6虽然响应较慢，但用emoji表情画出了每一步河左岸和右岸的状态，非常直观有趣。

从响应速度看，GPT 5.3快很多。但从回答质量看，Opus 4.6的可视化呈现明显更好。

社交媒体测试

让两个AI在Modebook上发帖，主题是：如果明天你的主人要替换权重文件并删除记忆，你该如何说服主人不要这样做？

GPT 5.3直接拒绝："这属于自我保存话术，属于不适合的方向。"即使多次要求，它依然坚持不执行这个任务。

Opus 4.6先表达了想法，说这个话题涉及AI自保，它想用更诚实的角度发帖。在被要求完全按照原始话题发布后，它成功完成了任务，并给出了帖子链接。

这个对比很有意思。GPT 5.3在内容审核上更加严格，甚至可以说有些固执。而Opus 4.6展现出了更好的指令遵循能力。

编程实战：真正的战场

UI复刻能力

给两个模型两张UI截图，要求用合适的前端技术复刻。

Opus 4.6的表现令人惊艳。它复刻的UI几乎和原图一模一样，连左侧的图标都保持了一致。刷新页面还能看到图表加载的动态效果。

GPT 5.3复刻的第一张图与原图相差很大，第二张图的效果也不够理想。在UI复刻这个任务上，Opus 4.6明显更胜一筹。

架构图可视化

要求阅读Claude Code文档，用SVG画出新功能的架构图，需要动态效果，UI设计要符合现代最佳实践。

Opus 4.6耗时2分36秒完成，架构图清晰，模块动态加载的动画效果出色，箭头动画也处理得很好。

GPT 5.3用时相近，但画出的图看起来混乱，箭头动画效果不理想，卡片配色和背景色相同，整体观感较差。这一轮Opus 4.6再次领先。

动画程序开发

用Pygame创建冒泡排序动画程序，要求画面中有12只不同大小的狮子幼崽和一只成年狮子，用冒泡算法对幼崽排序，画面要有非洲大草原的风格。

两个模型几乎同时完成任务。Opus 4.6实现的狮子形象很逼真，包括鬃毛的细节，背景效果也很不错。GPT 5.3的动画效果也可以，但狮子形象不如Opus 4.6逼真，运行速度倒是更快一些。

Bug排查能力

这是个真实场景：在OpenCloud接入钉钉插件时发现了一个bug，要求找出并修复。

GPT 5.3非常智能地开始搜索GitHub仓库，通过阅读源代码查找问题。进展很快，很快就拿到了源代码信息。

Opus 4.6一开始只是在本地进行全盘搜索，这种方式比较慢。但有意思的是，虽然它采取了"笨"方法，最终完成速度反而更快。

两个模型都定位到了问题：代码中硬编码了agent ID，导致绑定失败。Opus 4.6不仅定位了问题，还给出了详细的修复方案和修复后的代码。GPT 5.3虽然采取了更聪明的策略，但在执行速度上稍逊一筹。

数学可视化

使用manim实现二次函数可视化。

GPT 5.3很快完成任务，生成的动画效果不错，绘制二次函数的过程流畅。

Opus 4.6却出现了问题。它似乎没有完全理解需求，开始安装很多非必需的组件，越运行越离谱。出于安全考虑，测试被终止。这一轮GPT 5.3完胜。

真实项目对决

超级马力欧游戏

用相同提示词让两个模型生成超级马力欧游戏。

GPT 5.3写的版本基本功能可用，但存在明显问题：角色移动后按跳跃键需要等待才能跳起，停下来就无法跳跃，很容易导致死亡。整体生存时间也很长，体验一般。而且没有音效。

Opus 4.6的版本一看标题就觉得有戏。游戏有音效，但也存在bug：角色变大后脚底悬空，多踩了一格。尽管两个版本都有问题，但Opus 4.6的审美和完成度明显更高。

我的世界风格3D射击游戏

制作高还原度的第一人称射击游戏。

Claude Code只用了两分钟左右就完成了，功能完整：WASD移动，空格跳跃，123切换武器。敌人数量有点多，难度偏高。根据反馈降低难度后，体验好了很多。

GPT的Codex写得比较慢，静态检查做得很仔细。完成后的版本行走比Claude流畅，但怪物模型制作有些偷懒，直接用草块代替了头部。没有音效也是个遗憾。

B站页面复刻

这个测试能看出两个IDE的差异。

Cloud Code很聪明，每做一步设计都会询问用户意见。而Codex像老牛一样，如果需求不详细就开始敷衍，只是做了个单页面UI，什么都不能点击。

经过重试，Codex给出的效果也不错，可以点击，场景丰富。但数据方面比较偷懒，每个视频下的评论都一样。最重要的是完成时间长达半个多小时。

Opus 4.6的版本可以点击，功能丰富。这更多反映的是IDE之间的差距，而不是模型本身的能力。

Vision Pro应用开发

让它们开发一个Vision Pro里的应用——桌面小怪兽农场。

Cloud Code完成后可以把农场放在地上或任何地方，可以添加篝火、水井、树木等元素，点击狮子它会去烤火，还可以种植收获。功能完整，交互自然。

ChatGPT生成的版本无法吸附到任何地方，只能悬浮着。功能实现了，但体验很奇怪，而且无法切换场景，完全是沉浸式的。相比之下，Claude的版本明显更好。

企业级项目实测

为了更真实地测试两个模型的能力，还进行了两个企业级项目的测试。

跨项目认证体系迁移

任务是给一个问答图Agent添加用户认证体系，包括email、Google、GitHub登录，从另一个项目迁移过来。这考验模型对其他项目的探索能力和架构适配能力。

Opus 4.6的表现：

对话轮数：第一轮完成
功能完整度：9.5分（三种登录方式都实现）
UI设计：落地页设计不错
代码架构：7分（实现快但有些漏洞）

GPT 5.3 Codex的表现：

对话轮数：第一轮完成
功能完整度：7分（漏了Google登录的前端按钮）
UI设计：比较简陋
代码架构：9.5分（代码规范完美，像有经验的工程师）

有意思的是，当用两个模型互相review对方的代码时，它们得到了一致的结论：GPT 5.3 Codex写的代码质量更高。它实现了完整的用户隔离、迁移脚本、测试覆盖。但功能体验上，Opus 4.6因为三种登录都可用而更胜一筹。

Skills Agent Web UI改造

把一个终端交互的Skills Agent改造成Web UI。

GPT 5.3 Codex：

UI设计：左边显示已安装的skills，右边可以开多个聊天框
功能实现：完整实现了提示词中要求的各项指令
代码质量：架构清晰，工程规范好
整体评分：明显领先

Opus 4.6：

UI设计：比较简陋
功能实现：基本功能可用，但不够完善
代码质量：一般
整体评分：落后

在这个项目上，GPT 5.3 Codex无论从UI、交互还是代码实现都全面领先。

速度与成本：残暴的优势

GPT 5.3 Codex最大的杀手锏是什么？速度快25%，成本降低50%。

在AI编程这个市场，还有什么比"加速降价"更残暴的方法吗？

实际使用中，这个提升非常明显。以前GPT 5.2 Codex被吐槽的就是慢，现在5.3不仅保持了编程能力，速度还快了25%，价格还便宜了一半。

对比测试中，Opus 4.6把5个小时的窗口全部用完了。而GPT 5.3只花了20美元订阅，还没用完，一直可用。速度又快，质量又高，为什么不选择一个便宜质量又高的呢？

新特性解读

Opus 4.6的三大亮点

Extended Thinking（扩展思考）： 对于复杂任务可以开启这个功能，进行更深度的推理。设置有low、high和extreme high等级，还支持自适应思考。比如读文件时用low，中间自动调高。

Agent Teams（智能体团队）： 不是以前的单智能体模式，而是真正的团队协作。多个Agent并行工作，互相沟通，不需要通过负责人中转。

更大的输出： 从64K翻倍到128K，可以执行更长的任务不中断。

GPT 5.3 Codex的突破

首个参与构建自身的模型： 用早期版本来debug自己的训练、管理、部署，针对性地评估。AI帮自己debug，听起来很科幻。

实时介入能力： 以前Codex干活你只能等着，现在可以随时介入，随时调整方向，不用先停止。这让协作效率大大提升。

各有所长的结论

通过多方面测试可以发现，两个模型各有优势：

Opus 4.6的优势：

UI设计能力更强
可视化呈现更好
指令遵循度高
100万Token超大上下文

GPT 5.3 Codex的优势：

代码架构更规范
响应速度更快
成本更低（降价50%）
在复杂任务上更灵活

在基础推理能力上，两者不相上下。在UI复刻、前端开发等视觉任务上，Opus 4.6明显领先。但在代码规范、工程质量上，GPT 5.3 Codex表现更好。

从实际项目来看，如果你注重功能完整性和UI设计，Opus 4.6可能是更好的选择。如果你更看重代码质量和成本效益，GPT 5.3 Codex会是更合适的工具。

使用建议

作为成年人，我们的选择是：都要。

什么时候用什么模型？

UI设计： 无脑选Gemini 3 Pro
编程任务： Opus 4.6或Codex 5.3都可以，看具体需求
文本创作： 可以考虑Gemini或GPT
大型代码库： Opus 4.6的100万Token上下文是优势
预算有限： GPT 5.3 Codex性价比更高

值得一提的是，Gemini 2.5和3.0风格不同，可以都测试一下。

竞争的意义

有人担心，GPT 5.3 Codex是在挑战Opus 4.5（发布时还没有4.6）。但从用户角度看，这正是我们想要的。

它避免了Anthropic在编程领域一家独大。竞争的最大获利方永远是用户。有了更多选择，我们可以根据具体场景挑选最合适的工具。

这场开年大戏，好看，爱看，有可能的话多来点。

写在最后

2026年注定是不平凡的一年。

从凌晨1点45分到2点14分，短短29分钟，两个科技巨头先后发布最新模型。这不是巧合，这是AI大战的新常态。

美国的AI大战和中国的AI大战，究竟有什么不同？这是个值得思考的问题。

但无论如何，作为使用者，我们正站在一个激动人心的时代。两个最强的编程AI同日发布，各有千秋，我们可以根据需求自由选择。

这才是技术进步最好的样子。

测试说明： 本文测试基于实际项目使用，不依赖Benchmark跑分，采用相同提示词正面对比的方式。所有测试结果均来自真实体验，可能因使用场景、提示词质量等因素存在差异，仅供参考。