Back to Articles
Feb 17, 20263 hours ago

High School Dropout Becomes OpenAI Research Scientist by Self-Learning with ChatGPT

宝玉@dotey

AI Summary

This article profiles Gabriel Petersson, a research scientist on OpenAI's Sora team who reached the pinnacle of AI research without a high school diploma or university degree. His journey from a Swedish small-town dropout to a key contributor on cutting-edge video generation models is a compelling case study in unconventional education and career building. The piece is worth reading not just for its inspiring narrative, but for the practical, provocative insights it offers on how AI tools are dismantling traditional barriers to expertise and how ambition, when paired with the right methodology, can redefine success.

Gabriel Petersson 是 OpenAI Sora 团队的研究科学家,负责视频生成模型的研发。在这个通常要求博士学位的岗位上,他没有高中文凭,没有大学学历,靠 ChatGPT 自学了数学和机器学习。

他出生在瑞典中部一个叫 Vaggeryd 的小镇,17 岁辍学加入创业公司,19 岁当过瑞典最大云厨房的临时 CTO,此后在 Dataland、Midjourney 做工程师,2024 年 12 月加入 OpenAI。他拿的是 O-1 杰出人才签证,申请材料之一是 Stack Overflow 上的技术回答帖。

在 Extraordinary 播客中,他和主持人 Sigil Wen 聊了这段经历的全过程:怎么辍学、怎么自学、怎么用 AI 做研究、怎么找工作、怎么看待教育。以下是这场对话的整理。

要点速览

自上而下学习法:传统学扩散模型要从微积分和线性代数学起,至少六年才能接触实际模型。Gabriel 用 ChatGPT 自上而下递归学习,三天就建立了扩散模型的核心理解。

Sora 团队日常:盯着生成的视频找问题,改模型架构或数据,训练,看结果,循环。过程中大量使用 AI 辅助,但强调“我不是凭感觉编程,对代码非常有主见”。

Demo 求职法:做一个让人 3 秒内理解你能力的 demo,直接找决策者,绕过招聘流程。“公司只想赚钱,你证明你能帮他们赚钱、你会写代码,他们就会雇你”。学历、实习、课外活动都不如一个能跑的 demo 管用。

教育体制批评:大学不再垄断基础知识,教授维护旧体系是因为自身地位受到威胁。但也承认大学“很有趣”,对不那么激进的人来说仍是合理选择。

【1】“我今晚有个大派对,明天来。”“不行。”

Gabriel 的辍学故事没有什么深思熟虑的过程。

表亲有天打电话过来,说认识了一个人,“特别聪明”,想做电商产品推荐系统的创业项目,人目前在新加坡做研究,“我们今天就开始干,你赶紧来斯德哥尔摩。”

Gabriel 当时 17 岁,住在瑞典乡下。他的回答是:“老哥,我今晚有个大派对,明天来行不行?”表亲说不行。于是他坐了下一班巴士去斯德哥尔摩,再也没回过高中。

这家公司就是后来进入 Y Combinator(S20 批次)的 Depict.ai,做的是用 AI 给电商网站生成产品推荐。团队全是十七八岁的年轻人,研究者 Oliver Edholm 当时 16 岁。【注:Depict.ai 后来获得 Tiger Global 领投的 1700 万美元 A 轮融资,客户包括 Office Depot 和 Staples。】

没人懂创业,也没人懂销售。Gabriel 一开始发冷邮件,效果不好。后来改打电话,好一些但也有限,毕竟他是个 18 岁的非技术人员。

他想出了一个办法:提前爬取目标公司的网站,训练出新的产品推荐系统,然后把结果打印在 A3 大纸上,左边是客户现有的推荐,右边是他们的推荐。他做了上百张,装进一个大文件夹,直接敲人家公司的门。

“嘿,能跟你们的电商负责人聊聊吗?”然后掏出对比图。客户总是很惊讶,“你做了所有这些?怎么做的?太酷了。”

但客户紧接着会问:从这里到上线要多久?有什么未知风险?Gabriel 早有准备。他带了一段脚本,可以直接粘贴到客户网站的浏览器控制台里,当场切换产品推荐系统,而且内置了 A/B 测试,自动追踪两套推荐各带来多少收入。第一次见面就能签单。

那段时间他住在表亲的“宿舍”里。瑞典没有真正的大学宿舍,是一种只有在校学生才能申请的小公寓。他不是学生,所以每次需要提交材料时都得想办法。他睡的床是从公共休息室捡来的沙发靠垫。

“那个房间很恶心,但能用。”

Sigil 问他为什么能坚持。大部分人可能会放弃回去上学。

Gabriel 说:

“我一直对现实有种扭曲的感知。我 100% 确信这会让我成为亿万富翁。100%。世界上没有一丝怀疑。”

他通宵接着通宵地工作,在斯德哥尔摩四处跑着做销售。在他看来,其他一切都不重要。

【2】“我一直觉得自己太笨了”

Gabriel 辍学的时候不会写代码。

他的编程启蒙来自表亲。13 岁时表亲给他看了 Java,他做了一个极其简陋的宝可梦回合制小游戏。后来在 Udemy 上学了点 Python,做了一个躲子弹的鸭子游戏。他也试过 Andrew Ng 的机器学习课程。【注:Andrew Ng 是斯坦福大学教授,他在 Coursera 上的机器学习课程是全球最受欢迎的 AI 入门课程之一。】

他对这段经历的总结是:

“我一直觉得自己太笨了。就是做不了这些东西。”

真正学会编程是在 Depict.ai。因为公司要活下去,他被迫去解决真实问题:构建推荐系统、写网页爬虫、做客户集成、搭建 A/B 测试。

他认为有真实问题反而让学习简单得多。“大家总说,不上学怎么学东西?其实反过来更容易。你有一个真实问题,可以拆解成步骤:我要把推荐系统集成到这个电商网站,那我需要学怎么选择网页元素、怎么插入内容……然后一步步来,去 Stack Overflow 查,问朋友。”

关键是压力。“如果有人跟我说,学这个东西吧,时间无限,也不会因此赚到钱,我永远学不会。绝对不可能。”

【3】自上而下学习法——三天 vs 六年

Gabriel 认为人们学东西最快的方式是"自上而下":从一个实际问题开始,读需要解决这个问题的所有东西,发现更多子问题,再读那些东西,一路递归到问题的核心。

但学校教的全是反过来的。想学机器学习?先别想碰机器学习,前四年先学数学:微积分、线性代数、矩阵分类……然后是简单的统计学习方法,如线性回归。要到很久以后才能接触生产级的机器学习。

为什么学校用自下而上?因为这种方式好规模化。第一步永远学这个,第二步永远学那个,不需要一对一辅导。但效率极低。

“现在有了 ChatGPT,这一切都变了。大学不再垄断基础知识了。你可以从 ChatGPT 那里获得任何基础知识。”

他接着说了一句引起广泛讨论的话:“我简直无法认真看待那些不把大语言模型纳入课程的大学。”

Sigil 追问:你到底是怎么用 AI 自学数学和机器学习,学到可以在 OpenAI 工作的程度的?

Gabriel 举了自己学扩散模型(Diffusion Model)的过程。【注:扩散模型是当前主流的图像和视频生成技术,通过向数据逐步添加噪声再学习去噪的过程来生成内容,Stable Diffusion 和 Sora 都基于这类架构。】

第一步,问 ChatGPT:视频和图像 AI 模型最基础的概念有哪些?ChatGPT 开始讲自编码器、扩散模型。“听起来很有意思,到处都在说这些。”

第二步,让它写一个扩散模型的完整代码。代码出来了,完全看不懂。然后和 AI 一起调试,让它跑起来。在这个过程中逐渐建立直觉。

第三步,开始逐行追问。比如代码中有个 ResNet 模块,它做了一堆变换,还有一个残差连接(Residual Connection),让数据以特定方式通过,使模型更容易学习。一开始 Gabriel 完全不懂这是怎么回事。

他继续追问。ChatGPT 解释说梯度可以通过这些路径流动,如果没有残差连接,梯度会在某些地方被阻断。他继续追问,直到真正理解。

然后他告诉 AI:这是我对这个概念的理解,完全正确吗?

他还分享了一些提示词技巧。比如“像给 12 岁小孩解释”,AI 会用生活场景做类比,“想象你在一个书店,嵌入向量就是不同的书……”,把 AI 概念和现实世界连接起来。

Gabriel 把这个过程总结为"递归知识空白填补"(recursive gap filling)。核心技能有两个:一是感知自己不懂什么,“等等,我真的理解这部分了吗?”这其实挺难的,需要刻意练习。二是感知什么时候真正懂了,那个“啊,click 了”的瞬间。

"追逐这些 click,让它们尽可能频繁地出现,这就是你的目标函数。"

他对比了一下:

"学扩散模型,自上而下三天。自下而上学?要六年才能接触到。"

六年里你要学微积分 1、微积分 2、线性代数,然后机器学习入门……而且六年前你怎么知道自己想学扩散模型?这才是大学的问题所在。你要用三年才能发现自己选的方向是不是真的喜欢。

Gabriel 也强调了边界。他说学术界的人“做了令人难以置信的工作,做了对世界非常重要的研究,我绝对不是在看不起这些人。我唯一看不起的是那些伴随着旧思维方式的概念。”

【4】在 Sora 团队的日常

Sigil 问他在 OpenAI 怎么用 ChatGPT 来构建世界顶级的视频模型。

Gabriel 说很多人问他这个问题,总想象他的工作多么特别。其实相当直接。

“你看视频,发现这部分不太好。然后你去改模型架构,或者改数据。训练模型,看结果,盯着视频看一会儿。'这些视频更好了,太好了,这个进主分支。'然后循环。下一个要修的是什么?下一个要试的是什么?”

【注:Sora 是 OpenAI 的视频生成模型,2024 年底发布了 Sora 2,Gabriel 被列为该版本的研究贡献者。】

AI 在这个过程中的角色是:把整个代码库扔给 AI,让它给出 10 个改进建议,推荐相关论文,帮助和同事讨论方案。

他的论文阅读方法也很有特点。不会逐字阅读,而是让 AI 告诉他:这篇论文和已有方法相比,到底做了哪些不同的事?列一个清单,越具体越好。大部分论文看完总结就可以放弃了,只有决定实现的才深入读。而且“深入读”可能也只是在遇到 bug 的时候。

他一般的做法是把论文的方法直接让 AI 实现到自己的代码中,拷贝进去。

“但我会仔细读代码。我不是凭感觉编程(vibe coding),我对代码非常有主见。”

Sigil 追问这种区分。Gabriel 说他要的是"走捷径去理解所有基础",而不是“走捷径跳过理解”。

“人们的第一反应总是:你就是想走捷径,不想真正理解,想用 AI 糊弄。我确实想走捷径,但我走捷径是为了理解所有基础。这是非常重要的区分。”

他说自己每天问 AI 一百个问题。写完代码扔进去:这好不好?有没有 bug?怎么写更简单?“有时候它说没问题,但有时候它说'你这里有个 bug'或者'可以这样更简单'。你就一直在学。”

不过他也补充,人类的意见仍然非常有价值,尤其是涉及观点和判断的时候。“AI 训练数据来自互联网上所有的观点,有时候观点会很奇怪。和最优秀的人一起工作仍然很重要。但 AI 现在能给你 95% 了。”

【5】从斯德哥尔摩到旧金山——合同工策略和 Stack Overflow 签证

离开 Depict.ai 之后,Gabriel 始终清楚自己要继续做创业公司,目标是旧金山。

他的策略是只做合同工,保持流动性。“早期职业生涯中人们犯的最大错误是在同一家公司待太久。”

每加入一家公司,他做的第一件事是“面试面试你的人”。你们做 PR(代码审查)吗?你们会认真审查我的代码让我知道犯了什么错吗?他刻意寻找代码要求极高的团队。

在 Dataland 工作时,他遇到了一位工程师,热爱教学,追求完美代码。这个人每个 PR 写上百条评论。

Gabriel 会打电话过去说:那个 review 太好了,我们一起过一遍所有评论。他追问每条建议背后的第一性原理。

他说成为一个好工程师非常难,需要理解大量的第一性原理和直觉。“它们一旦知道了就很简单,但学起来可能很难。有人直接告诉你,而你又善于吸收,这是一种巨大的优势。”

而现在,AI 可以在任何时间、任何公司提供这种反馈。“可以是凌晨 4 点,你一直在写代码,你仍然可以问 AI 为什么这个决定更好。”

来美国的路不太顺利。他一开始在 Dataland 启动了 J-1 签证(类似实习签证),因为所有人都觉得 O-1 签证不可能。【注:O-1 签证是美国颁发给在科学、艺术、教育、商业或体育领域具有杰出能力的外国人的非移民签证,有时被称为“爱因斯坦签证”。】

后来公司变动,他决定离开。先以 ESTA 旅游签在旧金山住了几个月,跟各种人交流。之后加入了 Midjourney。【注:Gabriel 在 Midjourney 期间开发了高性能的 Web 图片网格、内部超参数调优工具和数据集探索器。】

在 Midjourney 期间,他开始认为 O-1 也许可行了。而且发现申请 O-1 有很多“创意路径”。

比如他用 Stack Overflow 上的技术回答来满足“学术发表”的标准。他的帖子有数百万浏览量,有严格的同行评审机制(投票系统会删除不正确的内容),帮助了大量开发者。

他的表亲曾经说他"浪费时间回答 Stack Overflow 上的问题"。Gabriel 当时说:"你不知道说不定以后用得上。"结果真的用上了。

【6】没有学历怎么找工作——Demo 方法论

Sigil 问:如果你是个无名小卒,从天涯海角来,怎么向重要的人展示自己的价值?

Gabriel 给出的回答是:做一个 demo。

但他马上补充,好 demo 的难点不在技术。“很多人以为 demo 难做是因为技术难、自己能力不够。不是的。你不需要多少编程知识就能做出很酷的 demo。”

难的是两件事:让人 3 秒内理解你在看什么,以及让人 3 秒内理解你是个好工程师。“你有一次机会,100 个申请者里别人点开你的链接,3 秒钟。”

然后他把求职建议简化到了一个句子:

“公司只想赚钱。你证明你能帮他们赚钱、你会写代码,他们就会雇你。”

那些传统的求职建议呢?学历、实习、课外活动、辩论冠军?

“面试官问你做过什么,你说'我优化了流程提升了 30% 效率'。好吧,我还是不知道你能不能做这个工作。你去了哈佛成绩很好?我还是不知道。你是辩论冠军?我还是不知道。”

他说这些东西之所以受重视,仅仅是因为没人能直接证明自己能做事。既然看不到真本事,那就只好看学历、看履历、看奖项,拿这些间接标准来猜一个人行不行。

接着他做了一个很有趣的分析:谁最依赖这些间接标准?

CEO 永远不在乎。他们只想赚钱。你说“我能帮你赚钱”,他说“好的,这是一个任务”。离 CEO 越远的人越在乎,因为他们的激励变了,不是做最好的决定,而是不犯错。

“招聘经理怎么确保不犯错?雇名校毕业的人。如果那个人表现不好,'你能怪我吗?人家上的是顶级学校啊。'”

他的建议是:绕过没有激励的人。别找招聘经理,他们甚至不是技术人员,无法判断你好不好。直接去科技活动,找创业者聊天,给他们看你做的东西,然后提议:“我们免费合作一周试试?”

“100% 的人会说好。他们什么都不用投入,就能看看你行不行。”

“有了第一份真正的工作之后,没有人会再看你的学历。你有了实际做出来的东西,学历还有什么用?”

不过他补充,这些建议是给真正想全力投入职业的人。他也会告诉朋友去上大学,那里很有趣,能交到朋友,甚至能学到东西,只是教法不够高效。“你还是能得到那些东西,只是效率低一些。”

【7】教授们为什么这么生气

Sigil 拿出 Gabriel 在 X 上的几条帖子让他展开。

其中一条:“大学不再垄断基础知识了。下面是我作为一个高中辍学生怎么用 ChatGPT 学会扩散模型核心直觉的。”

另一条更尖锐:“我目前在做一份传统上只有博士才能做的工作,零机器学习和数学经验,全靠 ChatGPT。不知道还需要什么证据来证明 ChatGPT 达到了博士水平。”

Gabriel 解释了为什么学术界对此反应这么强烈。"如果你是一个教授,一辈子都在跟人说为什么上大学很重要,突然有人说不需要了。最聪明的人如果开始自学,就不会去大学了,教授的地位就降低了。自我受到了威胁。"

“人们花了 10 年做一件事,然后一个高中辍学生冒出来学了几天就拿到了那个职位。这很难受。当我写这类东西的时候,会伤害到一些人的感情。说实话,这某种程度上就是目的,因为这些人在阻止其他人进入他们想进入的领域。”

Sigil 用了一个比喻:大学在很多方面像“成人日托”。Gabriel 补充说,尤其在瑞典,大学免费,还能拿到补贴。“有人跟你说'这里有免费的钱,你可以继续推迟做决定'。还有一堆专业什么都不用决定,你再无目的地学五年。”

“人们喜欢推迟决定。因为做一个选择感觉像是永久地决定了你这辈子要做什么。其实不是,但感觉是。”

他也举了一个例子:有人花五年学法律然后转行做市场营销,薪水更高、更开心。周围的人却会说“你不是浪费了五年吗?”“这个问题对我来说很奇怪。这个人升级了生活满意度和薪水,为什么是浪费?”

【8】70% 的人在永久性轻度痛苦中

Sigil 问:对那些不知道自己想做什么的人有什么建议?

Gabriel 说他见过太多这样的人,自己也经历过。从小学后期开始,“我想赚钱,想成功,但不确定那意味着什么,因为我什么都没见过,甚至不知道什么是创业公司。”

然后你上网搜“怎么赚钱”,做问卷调查赚几毛钱,觉得“天哪我在网上赚钱了”。没有人告诉你该从哪里开始。大人只会说“去上大学,等 8 年再说”。

他的建议是:尽快做真实的工作。世界上有几百万家创业公司愿意接受免费劳动力。去 LinkedIn 找隐形模式的创始人,给所有人发消息:“我想和你试着合作一周末,零承诺,我准备做任何事。”

“我这辈子做的所有不指向获得真实经验的事情,比如在初高中时期读书、培养好习惯、早起跑步、觉得自己特别高效,全部毫无意义。如果你不是同时在做一件真正重要的事,那些都是零。”

然后他展开了那条 X 上很火的帖子:

“70% 的人处于永久性轻度痛苦中,因为他们对任何艰难的决定都过敏,只要有'什么都不做'的选项就选择什么都不做。”

他举了一个具体例子。他在瑞典有个朋友,薪水比平均水平高 50%,日子过得不错。Gabriel 劝了他一年去申请旧金山的工作。“你的薪水能翻 10 倍,跟更好的人一起工作,做真正有人用的产品。”

朋友总能想出各种理由不去做。大脑会自动阻止你思考这件事,因为申请工作太痛苦了:准备面试、可能被拒、谈 offer、跟现在的老板说要走。

最后 Gabriel 直接把他介绍给了一家公司。“面试一旦开始就简单多了,因为公司会拉着你往前走。”朋友拿到了 offer,薪水翻了 10 倍。

“他因为拖延这件极其简单的事情,损失了在瑞典买一套房子的钱。”

关于听取建议,Gabriel 也有一套判断框架。他几乎不听别人的建议,能数得过来的只有几个人,其中最重要的是他的表亲。

“观点几乎总是跟着激励走。一个花了五年上大学、对自己的职业从没认真思考过的人,你问他该怎么办,他当然会告诉你花五年上大学。他出发点是好的,但他的建议完全没有意义。他只走过一条路,从来没比较过,而且心理上也不允许自己承认可能走了弯路。”

关于父母,Gabriel 的经历比较特殊。他的父母在“自我投射到孩子身上”的光谱上处于最低端。他们对成绩的唯一要求是 A 到 F 的评分里拿个 E 就行。Gabriel 年轻时因此生气,觉得父母不推他。后来他意识到,这种“低期望”给了他完全的实验自由。

他观察到另一种极端:父母把自己没实现的梦想投射到孩子身上。“你要当医生、当律师,这是我的梦想,也应该是你的梦想。”这些父母真心觉得是为孩子好,但往往是自我驱动的。“我想让我的孩子做这些,这样我就能跟邻居炫耀。”

【9】为什么要来旧金山

Gabriel 把旧金山的吸引力归结为人才密度和资本流动。“你第一周来这里,世界观就会改变。'天哪,我不知道世界上有这么多人在乎我做的事情,而且他们现在全在同一个房间里。'”

他把这种体验和看激励视频做了对比。“这才是真正的激励。不是有人站在台上说一堆听起来不错的话。这是真实的,有人跟你想的一样、做的一样、工作一样努力、一样在乎。他们不是朝九晚五。”

他做了一个大胆的估算:“仅旧金山的产出可能超过整个欧洲。仅旧金山的资本可能比整个欧洲加起来还多。Apple、Google、OpenAI、Anthropic,总部都在这里。”

给想来的人的建议:先变得厉害。“是你需要展示巨大的价值,因为公司要帮你处理签证流程,这对他们是额外的麻烦。他们当然更愿意直接雇本地人。但全球真正优秀的软件工程师非常稀缺,我们把美国优秀工程师的数量翻一倍也不够。”

在整场对话接近尾声时,Gabriel 分享了一个回顾性的认识。他说在瑞典小镇长大时,一个很大的障碍是觉得自己不够聪明。“你看到有人在造火箭,有人在做了不起的事情,你觉得自己怎么可能做到。但人们太容易低估自己能做的事了。”

他说,可能光是在听这期节目的人就已经是前 1% 了。“大多数人不会有这个主动性去花一个小时听一期播客来改善自己。你已经是前 1% 了,而前 1% 就意味着世界前 200 名创业公司里的人。只要继续走下去就行。”

Sigil 最后的评价是:“你可能是世界上最擅长用 AI 学习的人之一。”Gabriel 笑着说:“我希望更多人能比我做得更好,这样我就能向他们学习了。”Q&A

问:Gabriel 的核心学习方法是什么?
答:“递归知识空白填补”。从实际问题出发,用 AI 逐层追问,每遇到不懂的就继续深挖,直到真正理解。核心技能是识别自己的知识盲区,以及感知何时真正“click”了。

问:没有学历怎么找到好工作?
答:做一个让人 3 秒内理解你能力的 demo,直接找创业者或决策者展示,提议免费试工一周。绕过招聘经理,因为他们的激励是不犯错,而不是找到最好的人。

问:他怎么拿到美国签证的?
答:先在 Midjourney 积累了足够的行业影响力,然后申请 O-1 杰出人才签证。用 Stack Overflow 上的高质量技术回答代替传统的“学术发表”标准。

问:他在 OpenAI 具体做什么?
答:Sora 团队研究科学家,日常工作是观察视频生成结果、修改模型架构或训练数据、训练模型、评估效果,循环往复。大量使用 AI 辅助但坚持理解每行代码。

问:他认为大学完全没用吗?
答:不是。他认为大学是有趣的体验,能交朋友、学到东西。但教学方式效率低,而且大学不再是获取基础知识的唯一途径。对于有强烈职业野心的人,他建议尽快进入真实工作场景。

原始视频来源:Extraordinary 播客,Gabriel Petersson 专访

https://www.youtube.com/watch?v=vq5WhoPCWQ8