Back to Articles
Mar 6, 20261 week ago

GPT-5.4 is Released, and the Battle for the Best AI is Over!

A
AI进化论-花生@AlchainHust

AI Summary

This article offers a fascinating and counterintuitive analysis of the newly released GPT-5.4, arguing that its significance lies not in declaring a winner, but in ending the very race for a single "best" AI. By comparing the latest data from OpenAI, Anthropic, and Google, the author reveals that these leading models have decisively diverged onto three distinct paths, each specializing to dominate a different arena. The piece details how GPT-5.4 makes a strategic bet on automating white-collar work, with stunning gains in computer control and professional knowledge tasks, while its coding ability shows only marginal improvement. In contrast, Claude Opus 4.6 remains the undisputed champion for developers and complex coding, and Gemini 3.1 Pro stakes its claim with superior reasoning, multimodal understanding, and unbeatable pricing. The author compellingly illustrates this new reality through personal workflow, showing how different tasks now naturally flow to different specialized models. Ultimately, this is a guide for the pragmatic user. The era of agonizing over a single superior model is over, replaced by a more mature and effective phase of "right tool for the job." To understand how this split happened and what it means for how you should use AI, the full article provides essential context and insightful detail.

GPT-5.4发布了。

但看完GPT-5.4的数据之后,我还是决定写。不是因为它有多强,而是因为我发现了一个更有意思的事。我打开了三个网页:OpenAI的博客、Anthropic的定价页、Google的Gemini文档,把三家的数据摊在一起看。

结论让我有点意外:它们已经不在同一条赛道上了。

先说结论:不再有「最好的AI」

一年前,「哪个AI最好」还是个合理的问题。各家模型能力分布还比较均匀,都在同一条赛道上跑。

现在这个问题过时了。

想操控电脑、做PPT、跑知识工作?GPT-5.4。想写代码、跑Agent、做复杂开发?Claude Opus 4.6。想要最强推理、图片视频理解、最大上下文、最低价格?Gemini 3.1 Pro。

我自己就是这么用的。平时写代码,左边开着Codex做审查,中间跑Claude Code写实际代码,右边还有个Cursor兜底。Codex的上下文工程优化比Claude Code好不少,能在一个窗口下不停布置任务不用担心上下文撑爆。但Opus的天花板更高,独立解决复杂问题的能力没有对手。所以日常就是混着用,各取所长。

说个更直观的数据:我今年和ChatGPT的对话量比去年减少了90%以上​。不是ChatGPT变差了,是我的需求被Claude Code、Cursor、Gemini分走了。不同任务交给不同模型,你不会拿锤子去拧螺丝。

之前有人问我:「花叔,你推荐哪个AI?」

我的回答是:这取决于你是谁。

产品经理或分析师,日常做报告、处理数据?ChatGPT Plus大概率是你的最优解,GPT-5.4的知识工作能力确实强。

开发者,写代码是主要需求?Claude Code + Opus 4.6,目前没有对手。YC刚公布的Winter 26批次数据也印证了这一点:Anthropic占比52%,首次超过OpenAI​。去年OpenAI还占90%以上,一年完全逆转了。

对价格敏感,或者需要处理超长文本、音视频分析?Gemini。$2/$12的价格加2M token上下文,性价比无敌。

如果你是资深用户,可能最终会像我一样:三个都用,看菜下锅。

结论说完了。下面看看GPT-5.4到底做了什么,以及三家是怎么走到这一步的。

GPT-5.4到底做了什么

先过一遍GPT-5.4的数据。说实话,有几个确实让我眼前一亮。

Computer Use,就是让AI直接操控你的电脑。GPT-5.4在OSWorld基准测试上拿到75.0%,超过了人类基准的72.4% 。这是所有AI模型第一次在这个测试上超越人类。上一代GPT-5.2才47.3%,一个版本涨了快一倍,这个提升幅度我觉得是这次最值得关注的。

知识工作也很猛。GDPval达到83.0%,意思是在44个职业的专业任务里,GPT-5.4有八成以上能打平或超越行业专家。投行建模从68.4%跳到87.3%,做PPT时人类评审有68%的概率更喜欢GPT-5.4的版本。这个数据要是真的,华尔街的junior analyst该紧张了。

上下文窗口拉到了100万token,OpenAI迄今最大。还出了个叫Tool Search的新功能,跑Agent的时候不用把所有工具定义塞进prompt了,模型自己按需查找,token消耗直接减了47%。做Agent开发的应该会很开心。

但你仔细看,这些最亮眼的提升都指向同一个方向:让AI替你干白领的活​。操控电脑、做PPT、投行建模、知识工作。OpenAI押的注很明确:AI不只是聊天工具,它要做你的数字员工。

但编程呢?

这是我最关心的部分,也是最有意思的部分。

GPT-5.4在SWE-Bench Pro上的成绩是57.7%。上一代GPT-5.2是56.8%。

提升了0.9个百分点。

你没看错。一个做了Computer Use超越人类、1M上下文、投行建模87%的模型,编程能力只涨了0.9%。Claude Opus 4.6在SWE-Bench Verified上是80.8%,依然世界第一。(这俩是不同难度的测试,Pro更难,但0.9%的提升本身就说明问题。)

OpenAI不是做不好,是选择把资源放在了别的地方。

这和我实际用下来的感受完全对得上。Codex的gpt-5.2-codex选high模式时,后端能力确实强,能跑一个多小时完全没bug。但速度太慢了,思考时间过久,审美也差,让它做前端基本不行。Opus虽然贵,但处理创意代码工作时天花板明显更高,经常能独立解决我好几个月没搞定的功能问题。

所以我日常就是混着用:Opus处理需要创造力的代码,Codex做规划和审查。

但我不觉得OpenAI是「编程不行」或「不想打这仗」。恰恰相反,OpenAI的野心比编程大得多,它想替代的是更广泛的白领工作​。你看它这次选的benchmark就知道了:Computer Use、投行建模、PPT评审、44个职业的知识工作。编程只是其中一个,甚至不是最重要的那个。

三张成绩单

我把三家的数据都扒了一遍,摊在一起看,格局就很清楚了。

GPT-5.4赢了Computer Use和知识工作,Claude Opus 4.6赢了编程和Agent,Gemini 3.1 Pro赢了推理和性价比。没有一家全赢。GPT-5.4赢了5个benchmark类别,Gemini赢了4个,Opus赢了3个。

但比谁赢了什么更有意思的,是各自的短板。

GPT-5.4编程就不说了,0.9%的提升。定价也是三家最贵的,Pro版输出$180/百万token,是Opus的7倍多​。你用Pro版跑一个稍微复杂的Agent任务,账单看了可能会心疼。

Claude Opus 4.6呢,上下文窗口只有200K(1M还在beta),也没有原生Computer Use。写代码无敌,但你让它帮你操作电脑,目前还不行。

Gemini 3.1 Pro没有Computer Use,编程也不如前两家。但推理能力真的强,ARC-AGI-2上77.1%,甩了另外两家一条街。多模态理解也是三家最强,图片视频分析这块没对手。加上$2/$12的定价和2M token上下文,Google这波性价比打得很猛。

看到这,你可能和我一样想到了一件事:三家的强项和短板,刚好指向了三条完全不同的路。

三条路

GPT-5.4走的是白领替代路线​。

操控电脑、做PPT、投行建模、知识工作。ChatGPT付费用户超过千万,这些人不写代码,他们写报告、做分析、处理数据。GPT-5.4就是为他们做的。

Claude走的是开发者搭档路线​。

编程世界第一、Claude Code在开发者圈子里口碑炸裂、Agent能力最强。我自己从去年8月开始用Claude Code搭了自动化写作工作流,现在写文章的效率提升太多了。Anthropic不追求ChatGPT那种C端规模,在开发者生态里做到不可替代就够了。

Gemini走的是推理+多模态+性价比路线​。

推理能力领先,多模态理解也是三家最强的。我现在分析图片、理解视频内容都交给Gemini做,这块确实没对手。加上2M上下文和$2/$12的定价,性价比碾压。国内字节的Seed 2.0模型也在往这个方向走,多模态+低价正在成为一条清晰的赛道。

为什么Google敢定最低价、给最大上下文?因为Gemini不需要单独赚钱。Google有搜索、有YouTube、有Android,Gemini的作用是让整个生态更强。它的ROI不是用API收入算的。

三条路,三种赌注。

但OpenAI最大的问题不是技术

GPT-5.4技术上确实强。但OpenAI现在面对的最大挑战,和模型能力无关。

2月28日,OpenAI和美国国防部签了正式合同。几天前Anthropic刚刚公开拒绝了同一份合同,理由是五角大楼不愿加入「明确禁止自主武器部署」的条款。然后QuitGPT运动就爆发了。

时机很微妙。GPT-5.4恰好在QuitGPT最高潮的时候发布。ChatGPT的市场份额已经从高峰期的87%降到约68% ,Gemini从不到5%涨到18%以上。模型做得再好,用户在流失,这个问题比任何benchmark都严重。

最强之争,结束了

过去三年,AI的故事一直是「通用智能」:一个模型什么都能做,而且越来越强。

GPT-5.4打破了这个叙事。

它确实强,但它强的方式说明了一件事:即便是最顶尖的AI公司,也得做取舍了。Computer Use超越人类,但编程只涨了0.9%。Claude编程无敌,但上下文只有竞品的五分之一。Gemini推理最强价格最低,但Agent和Computer Use都不行。

每家都在自己选的赛道上做到了极致,同时接受了其他赛道的平庸。

我之前写GPT-5发布时说过,AI的iPhone 4时刻已经过去了。现在回头看,不只是「Wow时刻」没了,连「谁是最强」这个问题本身都过时了。

对我们这些日常在用AI的人来说,这反而是好事。不用再纠结「到底选哪个」,根据自己的需求选就行。写代码用Claude,做知识工作用ChatGPT,省钱或跑长文本用Gemini。就像你不会只用一把刀做所有菜。

GPT-5.4发布了。但AI的「最强之争」,已经结束了。

By
AAI进化论-花生