Back to Articles
Feb 6, 20261 week ago

Head-to-Head! Claude Opus 4.6 and GPT-5.3 Codex Released Simultaneously, It's Really the AI Spring Festival Gala.

数字生命卡兹克@Khazix0918

AI Summary

This article captures a pivotal moment in the AI industry, as two leading companies, Anthropic and OpenAI, released major model upgrades—Claude Opus 4.6 and GPT-5.3 Codex—within minutes of each other. The author, a heavy user of both platforms, provides an exhaustive first look, arguing that this simultaneous release signifies an intense and accelerating race where the ultimate winners are the users. The piece delves beyond mere benchmark scores to explore what these advancements mean for practical, real-world application, particularly in coding and agentic workflows.

在全网翘首以盼的等了两天之后,在凌晨2点。

Anthropic的新模型Cluade Opus 4.6正式更新了。

我说实话,我是真的最近因为AI圈这些模型和产品,熬夜熬的有点扛不住了。

但其实最颠最绝望的是,20分钟之后,OpenAI也发了新模型。。。

GPT 5.3 Codex也来了。

这尼玛,真的是中门对狙了。

要了亲命了。。。

这两模型都还是得看,因为之前GPT和Claude几乎就是我最常用的唯二最主力的模型,GPT-5.2用来做各种各样的搜索和事实核查还有研究还有编程改BUG,Opus 4.5做创作和主力编程。

现在,两个都来了。

太刺激了。

一个一个说吧。

一. Claude Opus 4.6

这次Anthropic其实不止发了Claude Opus 4.6,还有一个很好玩的东西,Agent Teams,还有关于Excel和PPT插件的更新。

先说Claude Opus 4.6。

每次有新模型发布,大家第一反应就是看跑分。

这次Opus 4.6的跑分确实很漂亮,我挑几个重点说说。

首先是Terminal-Bench 2.0,这是一个测试AI在终端环境下编程能力的评估,Opus 4.6拿了65.4%,是所有模型里最高的(没看到GPT-5.3 codex之前)。

GPT-5.2是64.7%,Gemini 3 Pro是56.2%。

让我比较惊讶的是OSWorld这个评估,测的是AI操作电脑的能力,Opus 4.6拿了72.7%,比Opus 4.5的66.3%高了不少。

这就意味着Claude越来越会用电脑了,它能更好地操作鼠标、点击按钮、在不同应用之间切换,在Coding能力提升的同时,电脑操作的能力也有大幅提升,这是真的要奔着全面Agent化去了。

还有一个BrowseComp,也是让我意外的,测的是Agent在网上搜索信息的能力,Opus 4.6拿了84.0%,远超其他模型。

第二名GPT-5.2 Pro是77.9%,差了6个多点。

因为我自己其实一直把GPT-5.2 Pro当作是我最牛逼的研究报告生成引擎去用的,他比DeepResearch还要强,精准度极高幻觉率极低,现在Opus 4.6比它还要高6个点,说实话有点离谱了。

然后就是GDPval-AA这个评估,这个评估测的是AI在真实工作任务中的表现,包括金融、法律等领域的知识工作。Opus 4.6拿了1606的Elo分,比GPT-5.2高了144分,比自己的前代Opus 4.5高了190分。

144分的Elo差距还是挺大的,也就是说,在干活这件事上,Opus 4.6确实是目前最强的,Cluade是真的把自己的编程能力,开始逐渐泛化到其他的工作场景里面去了。

然后最离谱的是这个,ARC AGI 2,68.8%,吊打一切。。。

我之前在GPT-5.2发布时候的文章里科普过这玩意,就是下面这种题。

这种能力,现在称为流体智力(Fluid Intelligence),意思就是指不依赖于已有的知识,在全新情境下进行逻辑推理、识别模式和解决问题的能力。

说白了,就是你的悟性和开窍的能力。

之前在ARC-AGI-2上,GPT-5.1的得分是17.6%,而GPT-5.2 Pro,直接飙到了50%多。

这一次,Claude Opus 4.6,直接干到了68.8%,是有点离谱的,差点摸到7字头了。

从上面这些跑分看,除了一些世界知识和问答上,Claude Opus 4.6还弱于GPT-5.2,其他的几乎已经全面领先。

当之无愧的SOTA。

说实话,我对跑分一直有点复杂的感情。

一方面,跑分确实能说明一些问题,但另一方面,跑分和实际使用体验之间,往往有一道很深的鸿沟。

很多模型跑分很高,但用起来就是不顺手,反过来,有些模型你看着整体跑分一般,但在某些场景下就是还挺好用的。

所以我更关注的,是这次更新在产品层面做了什么。

第一个:1M token的上下文窗口。

普天同庆!!!Claude Opus系列,终于有1M上下文啦!!!

Opus 4.6终于支持100万token的上下文了!!!

真的,做Coding的朋友们都知道,上下文容量有多重要。。。

之前只有200K的小窗口,这次整整翻了5倍!!!现在再也不用担心这个问题了!!!

而且我要说一个很重要的点,就是上下文窗口大,不等于模型能真正用好这么大的上下文。

很多模型虽然支持很长的上下文,但你真的塞进去很多内容之后,模型的表现会明显下降,会变得很蠢。

这个问题在业内叫"context rot",上下文腐烂,也就是你用的越久,模型能力开始变得越差。

而这次,Claude Opus 4.6,在MRCR v2的测试上做了实验,这个测试是大海捞针类的,就是在一大堆文本里藏几个关键信息,看模型能不能找到。

在100万token、藏8根针的测试里,Opus 4.6直接拿了76%,而Sonnet 4.5只有18.5%,太牛逼了!

而且上下文推理上,也傲视群雄。

这对很多实际场景来说真的非常有用,也是我最最最喜欢的升级点,不只是coding,其实比如你想让Claude帮你审查一份几百页的法律文件,或者分析一个大公司的财报,现在大概率也是可以一次性搞定了。

第二个:输出上限提升到128K。

以前Claude的输出上限都是64K,这次直接翻倍了。

也算是一个相当不错的利好。

这个改进听起来不起眼,但对于实际使用来说真的很重要。

第三个:Context Compaction,上下文压缩。

这个功能其实Claude Code已经实现很久了,但我觉得还是很有必要说一下,因为它解决了一个很现实的问题。

当你跟AI聊了很久,或者让AI执行一个很长的任务,对话内容会越来越多,最终会超过上下文窗口的限制。以前遇到这种情况,要么任务失败,要么得手动清理对话历史。

现在有了Context Compaction,Claude可以自动把旧的对话内容压缩成摘要,腾出空间给新的内容。

这样Claude就能执行更长时间的任务,而不会因为上下文溢出而中断。

这对于那些需要Claude长时间自主工作的场景来说,是一个很实用的改进。

以前是在Claude Code里使用工程实现的,现在直接模型自带了。

第四个:Adaptive Thinking和Effort控制

以前Claude有一个"extended thinking"功能,就是让它在回答之前先深度思考一会儿。

这个功能开启之后,Claude的回答质量会提升,但速度会变慢,成本也会增加。

问题是,以前这个功能是要么开要么关,没有中间状态。有些简单问题,你开了深度思考,就有点杀鸡用牛刀了。

现在有了两个新功能来解决这个问题。

一个是Adaptive Thinking,自适应思考。开启之后,Claude会自己判断这个问题需不需要深度思考。简单问题就快速回答,复杂问题就多想一会儿。

另一个是Effort控制,让你可以手动设置Claude的思考程度。有四个档位:low、medium、high、max,默认是high。

这两个功能加起来,让Claude的使用变得更灵活了。

你可以根据实际需求,在速度、成本、质量之间找到平衡点。

然后还有一个,是Claude Code里面很重要的更新,叫做Agent Teams。

以前你用Claude Code,是一个Claude在干活,你给它一个任务,它自己去做,做完了给你看结果。

现在有了Agent Teams不一样了,你可以让一个会话充当团队负责人,协调工作、分配任务并综合结果。

然后启动团队成员独立工作,各自在自己的上下文窗口中,并彼此直接通信。

比如假设你要做一个代码审查,需要看前端代码、后端代码、还有数据库相关的代码。以前你可能要分三次让Claude看,每次看一部分。

现在你可以说"帮我审查这个代码库",然后Claude会自动启动3个团队成员,一个看前端,一个看后端,一个看数据库,三个同时进行,最后把结果汇总给你。

而且这些团队成员不是完全独立的,它们可以相互沟通。比如后端代理发现一个API的变更,它可以告诉前端代理,让前端代理检查一下调用这个API的地方有没有问题,而且他们也可以互相质疑、互相挑战、互相发现。

跟Claude Code里面之前subagents也就是子代理不同的点在于,子代理在单个会话中运行,只能向主代理报告结果,而Agent Teams是一个团队,团队成员可以直接与各个团队成员互动,无需通过负责人。

他们自己也做了一个非常明确的图表来进行区分。

当你需要快速、专注的工作人员进行反馈时,使用子代理。当团队成员需要共享发现、相互挑战和自主协调时,使用Agent Teams。

然后就是两个小的更新,一个是Claude in Excel这个插件将Claude Opus 4.6直接集成到了excel里面。

现在还支持数据透视表编辑、图表修改、条件格式设置、排序和筛选、数据验证以及金融级格式设置。

还添加了可用性改进,包括长对话的自动压缩和拖放多文件支持等等。

然后还发了一个Claude in PowerPoint。

将Claude集成到了PowerPoint侧边栏中,让它在创建新内容之前读取现有的布局、字体和母版。

Claude也可以根据客户模板构建演示文稿、对现有幻灯片进行针对性编辑。

Anthropic真的凭借着Claude,在B端领域,真的开始大杀四方了。

GPT说实话,现在整个B端和生产力端的体验,稍微落后的有点多了。

最后说一下价格。

API价格保持不变,还是$5/$25每百万token(输入/输出)。

如果用超过20万token的上下文,会有额外定价,是$10/$37.50每百万token。

目前,Claude网页版和Claude Code上,Claude Opus 4.6均以全面上线,已经可以快乐的玩耍起来了。

二. GPT-5.3 Codex

终于聊完了Claude的东西,然后到了GPT这边。

说实话,我自己对GPT一直也是有自己的情感的,他依然是我现在在任何时候想到问题,第一个去问的模型,想要要验证某一个事的时候,第一个去问的模型。

而且,虽然我不是一个专业的编程大佬,但是在我有限的Vibe Coding的经验里,我觉得GPT-5.2 Codex在解决BUG和难点的问题上,是要强于Claude Opus 4.5的。

特别是GPT-5.2 Codex+Codex的改BUG体验,是要比Claude Opus 4.5+Claude Code要更强的。

所以我自己经常的工作流,经常是用Claude code写一个大的,然后用codex接手后续进行调整。

所以我刚好,还真是这两玩意的用户。。。

所以GPT-5.3 Codex的更新,我自然也非常的开心。

两者中门对狙,开心的自然是我们用户。

这次GPT-5.3 Codex,其实最让我惊讶的东西,不是跑分,是他们博客里的一句话:

"GPT-5.3 Codex是我们第一个在创造自己的过程中发挥重要作用的模型。"

OpenAI说,他们的Codex团队在开发GPT-5.3的过程中,用早期版本的模型来debug自己的训练过程、管理部署、诊断测试结果和评估。

用人话说就是,AI参与了自己的开发。

这个事情听起来有点科幻,但其实逻辑上是通的。

AI模型的开发过程,本质上也是一堆代码,训练脚本是代码,部署流程是代码,测试框架也是代码。

既然AI已经coding能力已经这么牛逼了,那让AI来帮忙写这些代码,也是顺理成章的事。

但顺理成章和真的做到了说实话,是两码事。

OpenAI的团队说,被Codex能够加速自身开发的程度震惊了。

如果AI能够越来越多地参与自己的开发,那AI进化的速度会不会变得更快?这个问题,可能比任何跑分都重要。

这个世界,真的都在疯狂的加速啊。

然后老规矩,再看下跑分。

GPT-5.3 Codex在几个关键的编程评测上都拿到了最高分。

这时候,你肯定会问了,GPT-5.3 Codex和Claude Opus 4.6,到底哪个跑分更牛逼一点???

说实话,因为两家的评测基准,还是有很多细节差异,所以,完全没法直接进行对比。。。

唯一一个对齐的基准是Terminal-Bench 2.0,这是一个由89个复杂真实任务组成的基准,这些任务都在终端环境中执行,每个任务运行在独立Docker容器内。

2.0版本于2025年11月7日发布。

Claude Opus 4.6得分65.4%,GPT-5.3 Codex得分77.3%,OpenAI领先11.9个百分点。

在这个唯一相同的基准里,GPT更胜一筹,而且是大胜,符合我对Codex系列的认知。

然后是OSWorld,评估AI agent操作真实计算机的能力,人类基线为72.36%。

关键区别在于,Claude Opus 4.6报告的是原版OSWorld(72.7%),而 GPT-5.3 Codex报告的是OSWorld-Verified(64.7%)。

OSWorld-Verified于2025年7月28日发布,是一次全面重构,修复了原版中300+已识别问题,包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令,以及过严/过松的评测脚本。

所以说,别看这个评测看着Claude更强,但是两个分数衡量的并不是同一件事。

OSWorld-Verified 提供了更严格、更可控的信号,也一般被认为更难,所以严格意义上来说,GPT-5.3 Codex的64.7%甚至是要强于Claude Opus 4.6的72.7%的。

然后是GDPVal,这个事在美国GDP贡献最大的9个行业中,覆盖44种职业、1320个真实知识工作任务。

任务要求产出真实职业交付物,如文档、表格、演示、图表,平均相当于7小时专家工作量。

可比性问题在这里最明显。

GPT-5.3 Codex的“GDPval wins or ties: 70.9%”,使用的是 OpenAI 自己的方法,由职业人类评审盲评 AI 产出与人类专家产出,判断 AI 版本是否“与人类一样好或更好”,分母是固定的人类标准。

Claude Opus 4.6的“GDPval-AA Elo: 1606”,这是独立评测机构Artificial Analysis的体系,使用其自有Stirrup agent框架(具备 shell 与网页浏览能力)跑模型,再由Gemini 3 Pro做两两比较评判,最终用Bradley-Terry模型拟合Elo评分,并以GPT-5.1的1000 为锚点。

所以这个是太难换算了,我也不太清楚两边哪个更牛逼。。。

然后就是SWE-bench,SWE-bench测试AI是否能通过生成代码补丁修复真实 GitHub issue。

SWE-bench Verified(Claude Opus 4.6使用,80.8%)是500题、人工验证、仅Python的子集,由OpenAI Preparedness团队在2024年8月发布。

93位职业开发者验证了每道题都具备明确问题描述和公平单测,顶级模型已超过70%,该基准接近饱和。

SWE-bench Pro Public(GPT-5.3 Codex 使用,56.8%)是731题、多语言基准,由Scale AI创建。它覆盖Python、Go、JavaScript、TypeScript等,横跨41个仓库。参考解平均107.4行、4.1个文件,明显比 Verified常见的单文件补丁更复杂。

它还纳入copyleft与专有代码库,专门降低数据污染风险。

所以说,Claude Opus 4.6在Verified的80.8%与GPT-5.3 codex在Pro Public的56.8%不能直接比较。

但说实话Pro明显更难,发布时GPT-5和Claude Opus 4.1在Pro上都只有约23%,不到其Verified分数的三分之一。

所以说,其实整体跑分上,虽然看着GPT-5.3 Codex的得分好像都低一点。

但是含金量更足,如果非要我说的话,结合着我过去的测试印象,单开发这一块,可能会是GPT-5.3 Codex会更强更实用一点。

当然,还有一个最关键的一点是,GPT...他不封号呀= =

然后跑分是一回事,能做什么是另一回事。

OpenAI在博客里展示了两个用GPT-5.3 Codex做的游戏,一个赛车游戏和一个潜水游戏。

这两个游戏都不只是那种我们随处可见简单的demo,而是完整的、可玩的游戏。

赛车游戏有不同的赛车、八张地图、还有道具系统。

潜水游戏有不同的珊瑚礁可以探索、有氧气和压力管理系统、还有危险要素。

关键是,这些游戏全都是GPT-5.3 Codex自己做的。

OpenAI说,他们在Codex产品了里,用这个模型和一个叫develop web game的Skills,加上一些通用的跟进提示(比如"修复这个bug"或者"改进这个游戏"),让GPT-5.3 Codex在几天的时间里,自主迭代了数百万个token,最终做出了这些游戏。

说实话,有点牛逼的。

而且这次有一个很棒的更新点。

就是你可以在GPT-5.3 Codex工作的时候跟它互动,可以随时介入,随时调整方向了。。。

终于不用先停止了,这个小能力还挺香的。

目前已经在Codex上上线,我已经开始用起来了。

而且直观感受,在Codex上运行GPT-5.3 codex真的快了非常非常多。

在博客里没有这块数据,不过奥特曼自己的X上写出来了。

写在最后

这篇稿子又写了个通宵,基本上把我对这两个模型的理解都写进去了,应该没啥漏的了,应该是最全的一篇了。

至于实际测试,希望大家见谅,这么一点点时间实在测不出来,可能我得需要一整个周末的时候,正儿八经的开发几个产品,才能感受到明显的差异。

不过有一点就是,现在的模型几乎都是奔着Coding和Agent去的,所以这块的提升基本都很明显,跟手机一样,用新不用旧。

直觉上我的工作流还是不太会变,Claude Opus 4.6 + Claude code打草稿,GPT-5.3 Codex + Codex进行后续精准开发。

最后。

今天真的是AI行业的大日子。

Anthropic发了Opus 4.6,OpenAI发了GPT-5.3 Codex。

两家头部AI公司在同一天放出大招,这在历史上也是罕见的。

现在就等着Gemini还能玩出什么花活了。

从模型能力上看,两家都在快速进步,差距在缩小。

从产品形态上看,两家都在押注Agent,但侧重点有所不同。

从行业影响上看,传统SaaS公司开始感到压力,软件行业绝对正在经历一场从诞生以来最大的一次范式转变。

我不知道一年后这个行业会变成什么样。

但我知道,现在,绝对是一个需要密切关注、积极学习的时期。

错过这一波,可能就真的错过了。

如果你还没用过Claude Code,没用过Codex,现在是一个很好的开始时机。

毕竟,未来已经来了。

只是,还没均匀分布。

By
数字生命卡兹克