Back to Articles
Feb 21, 20262 days ago

OpenAI's Application CTO and Codex Lead: AI is Reshaping How Software is Built

宝玉@dotey

AI Summary

This article offers a rare, inside look at how AI is fundamentally transforming software engineering, not in theory, but in daily practice at OpenAI itself. Based on a keynote interview with two of the company's top engineering leaders, it reveals that tools like Codex have evolved from simple assistants into full-fledged "teammates," orchestrating work autonomously and reshaping roles, workflows, and organizational structures at a breathtaking pace. The core narrative details a rapid six-month evolution where AI has moved beyond generating code to autonomously running QA tests overnight, training models, and writing reports. This shift creates a cascade of "bottlenecks in motion"—as code generation is solved, the next hurdles become code review, deployment, and ultimately, understanding user needs. The changes are profound: designers now ship more code than engineers did half a year ago, product managers leverage AI to become exponentially more efficient, and new hires are "AI-native," approaching problems with AI as their default tool from day one. The discussion also tackles critical questions about cost, the enduring importance of foundational knowledge, and how management must adapt in an era of radically amplified individual productivity. Looking ahead, the leaders predict another order-of-magnitude speed increase within months, with multi-agent networks capable of building complex systems like browsers from scratch in a day. This future suggests code itself may become an abstracted layer, with engineers focusing more on system properties and high-level intuition. The article leaves us with pivotal questions about replicating these practices in cost-conscious environments and the long-term implications for engineering craftsmanship. For anyone involved in building or managing technology, this candid account from the frontier is an essential glimpse into the accelerating future of our craft.

OpenAI 应用 CTO 和 Codex 工程负责人,在 The Pragmatic Summit 上聊了 OpenAI 内部工程师的真实工作状态。Codex 不再只是写代码的工具,已经进化成了“队友”。工程师合上笔记本去开会,回来发现活已经干完了。设计师写的代码比六个月前的工程师还多。一个 PM 靠 Codex 把自己变成了 50 倍效率的项目经理。

两位受访者: Vijaye Raji(以下简称 VJ),OpenAI 应用 CTO(CTO of Applications),负责 ChatGPT 和 Codex 的产品工程,此前创办了产品实验平台 Statsig,2025 年 9 月被 OpenAI 以 11 亿美元收购,在微软和 Meta 有超过 20 年经验;Thibault Sottiaux(以下简称 Tibo),OpenAI Codex 工程负责人,此前在 DeepMind 和 Google 工作,现直接管理 33 人的 Codex 团队。

主持人 Gergely Orosz 是科技行业最有影响力的工程管理类 newsletter The Pragmatic Engineer 的作者。本次访谈来自他举办的首届 Pragmatic Summit(2026 年 2 月 11 日,旧金山),约 500 名工程领导者和实践者参加。

要点速览:

OpenAI 内部,Codex 在 6 个月内从“辅助工具”进化成“队友”,顶级工程师每周消耗数千亿 token,工程师可以把任务派给服务器端的 Codex 然后去开会

瓶颈在不断转移:代码生成解决了,代码审查就成了新瓶颈,接下来是集成部署,团队需要持续追踪下一个卡点

设计师写的代码比六个月前的工程师还多,面试者开始问“你们给我多少算力”,职能边界正在消融

Codex 能在夜间自主运行 QA 测试、独立训练模型并写 PDF 报告,研究员多次发现自己低估了 Codex 的能力

今年夏天 OpenAI 将接收约 100 名应届生,团队认为“AI 原生”新人将有独特优势

6 个月内预计再提速一个数量级,多 Agent 协作网络将可实现“24 小时从零重建一个浏览器”

【1】Codex 已经不是工具,是队友

Gergely 开场直接问 VJ:OpenAI 内部正在发生什么?

VJ 说,过去 6 个月他亲眼看到了一条清晰的演进路线:Codex 从工具,变成功能扩展,再变成 Agent(智能体),现在已经是队友了。

“I fully expect engineers to name their agents now and call themselves as their teammates.”
(我完全预期工程师们会给自己的 Agent 起名字,把它们当作自己的队友。)

他补充了一些内部数据:OpenAI 有使用排行榜,一些工程师每周消耗的 token 达到数千亿级别。而且这不是一个 Agent 在工作。就在上周,团队内部上线了一个叫 Codex Boxes 的功能,可以在服务器端预留开发环境,工程师在自己的笔记本上编排任务指令,然后把笔记本合上去开会,回来时所有工作已经并行完成了。

“People shut down their laptop, go to a meeting, come back and then all of the work has been done.”
(人们合上笔记本,去开个会,回来时所有工作都已经做完了。)

VJ 认为这种工作方式会在几个月内成为行业常态。

【注】 Codex 是 OpenAI 的 AI 编程工具,2025 年 5 月首次发布,既有云端版(在隔离容器中独立运行任务),也有命令行版(Codex CLI,在本地终端运行)。目前支持 VS Code 扩展、桌面应用、Web 应用等多个入口。截至 2025 年底,约 95% 的 OpenAI 工程师在使用 Codex,每周合并的 PR 增加了 70%。

不过 Gergely 补充了一个重要的现实:他和 OpenAI 内部很多工程师私下聊过,并非所有人都 100% 用 Codex 写代码,使用程度存在差异。但有一个团队确实走在最前面——Codex 团队自身。

【2】瓶颈不断转移:从代码生成到用户需求理解

Gergely 接着问 Tibo:Codex 团队具体是怎么工作的?

Tibo 说团队几乎每周都在重新发明自己的工作方式。核心方法论是识别瓶颈,然后解决它,但瓶颈会不断转移。最初是代码生成,然后是代码审查,现在变成了:怎么更快理解用户需求?怎么分类工单?怎么从 Twitter、Reddit 等渠道综合反馈,形成产品策略?每个环节都在尝试用 Agent 来加速。

他讲了一个有趣的细节:最近有人想加入 Codex 团队,在面试时问了一个问题。

“How much compute am I going to get to build products at OpenAI?”
(在 OpenAI 做产品,你们能给我多少算力?)

Tibo 说自己愣了一下。过去这种问题只有训练大模型的研究员才会问。现在工程师也开始关注**“人均算力配额”**了。

这个变化说明了什么?Tibo 认为,如果你有好品味、好想法、懂得怎么做软件,现在的杠杆率是前所未有的。

放到整个 OpenAI 来看,VJ 补充说,产品直觉仍然是核心。他自己也在用 Codex 写代码,但发现很多时候瓶颈不在于代码本身,而在于想象“产品应该长什么样”。这部分依然需要人类来做——除非将来我们开始为 Agent 而非人类构建软件。

VJ 还讲了个小故事:他在飞机上用 Codex 写代码,空乘过来让关电脑,他把笔记本半合着放下去,不想中断 Agent 的运行。他说现在每个人都半开着笔记本到处走。

他觉得这其实让写软件变得更有意思了——反馈周期大幅缩短,看到产品成型、测试验证、再回到 Codex 迭代,成就感来得更快。

【3】新的工程实践:并行探索、设计师写代码、夜间自动测试

Gergely 追问:有哪些新的、不同的、甚至“奇怪的”工程实践开始出现?

Tibo 提到了几个变化。

第一个是并行探索。 过去遇到复杂的技术选型,团队会写设计文档(design doc),开会讨论,排除备选方案。现在他们会同时让 Codex 实现多个方案,然后看哪个实际效果更好。决策从“讨论后择一”变成了**“实现后比较”**。

第二个更让人意外:角色边界模糊了。

“Our designers are shipping more code than engineers were shipping six months ago.”
(我们的设计师现在产出的代码,比六个月前工程师的产出还多。)

这是因为模型的代码质量已经好到可以直接合并。

VJ 补充了一个小场景:Codex 团队做视频处理,经常需要用 ffmpeg(一个功能强大但命令参数极其复杂的视频处理工具)。没人记得住那些命令行参数,现在直接告诉 Codex“我要做什么”,它就生成正确的命令并执行。

VJ 还指出了一个更大的图景:瓶颈转移是连锁反应。你解决了编码问题,每个工程师的代码产出就翻了五倍。代码多了,代码审查就成了新瓶颈。审查解决了,集成和部署(CI/CD,持续集成/持续部署)又会成为瓶颈。团队需要不断去解决下一层问题。

XIMGPH_4

Gergely 接着问了一个他觉得”像科幻”的实践:通宵运行。

Tibo 解释说,很多人对 AI 编程的印象还停留在“加强版自动补全,10 分钟搞定一个小功能”。但实际上模型的能力远超这个范围,给它一个大任务,它可以连续运行好几个小时。

Codex 团队搭建了完整的环境和技能配置,让 Codex 在夜间自主进行 QA(质量保证)测试循环,持续运行并标记回归问题。工程师第二天来看结果就行。

然后 Tibo 提到团队里一位负责训练模型的研究员的感受,让他自己都觉得“既兴奋又有点沮丧”:

“Every time I think I'm more capable than Codex, I figure out I'm wrong and I just didn't prompt it right.”
(每次我以为自己比 Codex 强,最后都发现是我错了,只是提示词没写对。)

这位研究员发现 Codex 已经能够独立训练一个模型,训练完成后还会写一份 PDF 报告,包含自己的发现和洞察。团队拿到报告后找出最有价值的方向,再把新任务输入 Codex 继续迭代。

【注】 这段描述了一个“AI 改进 AI”的循环:Codex 训练模型 → 输出报告 → 人类筛选方向 → Codex 继续迭代。这在 AI 研究中被称为“自我改进循环”(self-improvement loop)。

Gergely 还提到另一个实践:Codex 团队每周开数据分析会时,会当场启动 Codex 线程。Tibo 描述了具体流程:会议开始时,大家提出仪表盘上没有现成答案的问题。数据分析师马上启动 Codex 线程,让它在后台处理。20 分钟后答案就出来了,会议最后 10 分钟讨论结果。一场会议同时处理 5-6 个问题。

“It's like having little consultants working for us in the background.”
(就像有一群小顾问在后台帮你干活。)

线上事故响应也是一样。Codex 帮忙诊断问题所在、找到最快的恢复路径,信息收集和问题定位的速度明显提升。

【4】100 名应届生即将入职,“AI 原生”一代来了

行业里一直有个争论:AI 编程时代,初级工程师还有价值吗?Gergely 提到他和 OpenAI 的工程负责人聊过,得知 OpenAI 正在招收早期职业工程师,让两位受访者展开说说。

VJ 说,OpenAI 正在大量招聘应届毕业生,今年夏天的实习项目也在扩大,这一批大约有 100 人。他认为新一代软件工程师将是**“AI 原生”(AI native)** 的,从第一天起就把 AI 当作默认工具。给他们机会在这样的环境中成长,效果会很惊人。

Tibo 从组织角度补充了他的做法:Codex 团队是极度扁平化的,他一个人有 33 个直接下属。他解释说,当个体的生产力因 AI 大幅提升时,传统的层级管理结构很容易成为瓶颈。一个人卡住所有决策,在这个速度下显然行不通了。

新人入职的第一个工具就是 Codex 本身。用它问问题、浏览代码库、了解同事在做什么、接收日报。而负责入职培训的人,恰恰是最近才刚入职的人——因为他们对”怎么上手”的记忆最新鲜。

XIMGPH_5

Tibo 提到了一个具体的人:一个叫 Ahmed 的应届生,6 个月前加入团队,表现非常出色。

“My brain is probably already in decline... this person Ahmed's brain is just absolute peak.”
(我的大脑估计已经开始走下坡路了……Ahmed 的大脑正值巅峰。)

这句自嘲背后是一个观察:新人没有需要覆盖的旧习惯,精力和学习速度都是优势。

Gergely 扮演了一回“魔鬼代言人”:在场很多资深工程师都见证过新人从菜鸟成长为优秀工程师的过程,而这个过程中基础训练至关重要。如果新一代从一开始就用 AI 写代码,跳过了前辈们经历的那些基本功训练,他们的基础够吗?

Tibo 的回答是:基础依然极其重要。团队花大量精力设计整体代码架构,做代码审查,不是把一切都扔给 Codex 然后闭上眼睛。关键在于环境设计——如果你的代码库结构好、护栏(guard rails)设置得当,新人就能在这个框架下发挥出惊人的生产力。

【5】25 年行业变迁:从 IntelliSense 到 AI,每一代都被质疑

Gergely 问 VJ,软件工程师的日常角色到底变成了什么样?

VJ 先说了一句总原则:基础永远不会过时。然后他拉开了时间线。他在这个行业干了 25 年,经历过很多范式转变。在微软时期,他参与开发了 Visual Studio 的编辑器和语言服务(Language Services)。

【注】 VJ 在微软工作近十年,参与了 Visual Studio 编辑器、Windows 应用框架、SQL Server 建模工具等核心项目的开发。他也是 Small Basic(一种简化版 BASIC 语言)的创造者。

他回忆第一次看到 IntelliSense(Visual Studio 的代码自动补全功能)时的感受:你打一个点号,选项就弹出来了,那感觉很酷。

Gergely 接了一句:我入行的时候,周围的开发者说“用 IntelliSense 的不是真正的开发者”。

VJ 笑着说,对,再往前还有人说不写汇编就不是真正的工程师,然后是 C++,然后是 JavaScript。每一层抽象提升时,都有人质疑。

他的结论是:这些都不重要。重要的是你有扎实的基础,有产品直觉,能够在技术栈上上下下地解决问题。这些能力不会过时。

【6】一个 PM 用 Codex 把自己变成了 50 倍效率的项目经理

Gergely 问了产品经理和设计师的角色变化。

VJ 的核心观点是:只要我们还在为人类构建产品,就需要人类的设计师和产品经理。产品感觉(product sense)和设计感觉(design sense)没有替代品。但这些角色也在变得更高效——PM 在写代码,设计师在写代码,设计师把设计直接带入可运行的原型,在找工程师之前就先做了验证。PM 也在用 Codex 做幻灯片和 Excel 插件。

Tibo 补充了内部的知识分享机制:Slack 里的 Codex 频道和“hot tips”频道非常活跃,团队定期举办 hackathon 和 show and tell,尽量让好的 AI 使用方法快速扩散。

然后 Tibo 讲了一个具体案例。Codex 团队只有一个产品经理,叫 Alexander Embiricos。这一个人怎么管一个 33 人的工程团队?

答案是 Codex 本身。Tibo 描述了他最近一次 bug bash(集中找 bug 的活动)的流程:一个小时内大家走查即将发布的功能并提交反馈,结束后 Alexander 让 Codex 汇总反馈、输出到 Notion 文档,再让 Codex 把问题拆分成 bug 报告和功能改进请求、录入 Linear(项目管理工具)、分配给对应的工程师,之后还用 Codex 跟进每个人的进展。

“He's becoming like a 10x, like 50x program manager just by leveraging AI.”
(他通过 AI 把自己变成了 10 倍、50 倍效率的项目经理。)

【注】 Alexander Embiricos 是 Codex 的产品负责人(Product Lead),此前曾创办过面向工程师的结对编程产品,在加入 OpenAI 之前在 AI 辅助开发领域有多年经验。

VJ 补充说,他参加过很多 Demo Day(内部演示日),注意到一个趋势:演示项目的深度持续增加。不再只是“看看这个能做什么”的表面展示,很多项目已经处理了各种边角情况,是真正可用的产品。

【7】Token 成本:别问用了多少 token,问队友值多少钱

Gergely 先做了一个重要的前提说明:OpenAI 内部所有人都有无限 token,没有成本限制。观众席上很多人笑了——这确实是个大特权。外部世界成本仍然是个实际问题。对于受限环境下的团队,两位有什么建议?

VJ 说,成本是 OpenAI 持续在思考的问题。一方面是持续让模型更强更便宜。另一方面,他认为思维方式需要转变:想象你有一个 24 小时工作的队友,你可以给它分配 Linear 任务或 Jira 任务,完全期望它能独立完成。那么问题就变成了**“你愿意为这个队友付多少钱”**,而不是“用了多少 token”。如果按每个工程师配备四五个 AI 队友来衡量生产力,成本就更容易算清楚了。

Tibo 从另一个角度补充:要看 AI 替代了什么成本。比如过去需要 15 个工程师花时间筛查整个功能 backlog(待办列表),找出哪些可以轻松实现,现在这件事几乎免费。虽然不是每个公司都能提供无限推理资源,但过早限制推理用量是一个风险。他的建议是:至少给公司里最优秀的人提供充足的推理资源。

【8】未来预测:6 个月内再快 10 倍,代码将被抽象化

最后一个问题:两年后,软件工程和工程管理会是什么样?

Tibo 先笑了一声说,两年太久了。他只敢预测 6 个月:速度将再提升一个数量级。另一个确定会实现的是多 Agent 协作网络,大量 Agent 可以协同完成非常大的目标。比如 Cursor 曾演示过的“从零重建一个浏览器”,24 小时后就能得到一个数百万行代码的产物。这种代码量已经超出人类能理解的范围了。

【注】 Tibo 提到的 Cursor 演示,指的是 AI 编程工具 Cursor 展示的大规模代码生成能力。

所以 Tibo 预测,接下来会出现围绕代码的“护栏”:你不需要再看代码本身,而是通过某种方式证明它是正确的(形式化验证),或者确保它被约束在安全范围内,只关注输入和输出。代码将被抽象化,真正重要的是系统的属性。

VJ 从历史角度做了补充:软件的抽象层级一直在提升,让我们能用更少的代码构建更大的产品。现在这个趋势的加速度本身在增加。但他也提了一个担忧:当系统足够复杂时,调试会变得极其困难。未来的工程师可能更像医生诊断病人——靠“症状”来定位问题,工具也会朝这个方向进化。

Tibo 最后加了一个近期预测:年内就会出现个人助理层。你不再需要监控一百两百个独立的小 Agent,而是有一个总控的个人助理,它代表所有后台 Agent 的工作,你只需要和这一个助理对话。

XIMGPH_9

VJ 对整体变化速度做了一个判断:他在行业里 25 年,经历过互联网泡沫、Y2K、移动革命、社交网络革命。这一次完全不同。

“I don't think I've ever seen anything like this. Some of these charts don't make sense.”
(我觉得我从来没有见过这样的事情。有些增长曲线根本说不通。)

规模更大,速度更快。

这场对话透露的核心信号有三个。

第一,AI 编码在 OpenAI 内部已经不是“辅助”,而是“协作”甚至“委托”。

第二,瓶颈在持续转移——每解决一层就暴露下一层,从代码生成到审查到部署到需求理解。

第三,“基础”的定义在悄然变化:会写代码正在变得不那么稀缺,而产品直觉、系统思维和在抽象层之间灵活移动的能力正在变得更稀缺。

悬而未决的问题是:

无限 Token 环境下催生的工作方式,能否在成本敏感的现实世界中复现?

当代码被抽象到不需要人看时,安全性和可审计性怎么办?

AI 原生的新一代工程师,长远来看到底是更强还是基础更薄弱?

这些问题没有人能给出确定答案,但这场对话至少让我们看到了变化正在发生的速度和方向。