AI Engineering: Building Applications with Foundation Models

Chip Huyen 的新书《AI Engineering: Building Applications with Foundation Models》自今年 1 月出版以来，一直是 O'Reilly 平台上阅读量最高的书，亚马逊多个 AI 相关分类排名第一，目前正在被翻译成中文、法语、日语、韩语等多种语言。如果你读过她的上一本畅销书《Designing Machine Learning Systems》，会发现她延续了一贯的风格：不教你用某个具体工具，而是讲清楚底层的“为什么”。

我翻译了这本书的中文版《AI 工程：大模型应用开发实战》，已经由图灵出版社出版。

这本书讲什么

一句话概括：怎么在基础模型之上构建应用。

Chip Huyen 把 AI 工程和传统机器学习工程做了清晰的区分。传统 ML 工程的核心是训练模型，AI 工程的核心是使用模型。模型即服务的模式已经把 AI 从一个高门槛的学科变成了人人可用的开发工具，但“能用”和“用好”之间的距离，比大多数人想象的要远得多。

全书 10 章，覆盖了构建 AI 应用的完整链路：从规划应用、理解基础模型的工作原理，到评估方法论（占了两章）、提示工程、RAG 与 AI 智能体、微调、数据集工程、推理优化，最后是 AI 工程架构与用户反馈。

关于评估，多说几句。大多数教程把评估一笔带过，但 Chip 认为这是 AI 工程中最难也最被低估的环节。我专门问过她为什么给评估这么大的篇幅，她说如果再版可能还要加到三章。两个原因：

一是 AI 的输出本身带有不确定性，你必须靠评估来保证生成结果的稳定性；

二是 AI 一旦出错，后果可能比传统软件严重得多，评估没做好直接上线可能产生难以估量的负面影响。

书里详细讨论了 AI 当裁判（AI-as-a-judge）这种快速增长的评估方式，也指出了它的局限。

做传统应用开发的人可能意识不到评估有多重要。传统软件的行为是确定性的，输入 A 一定得到输出 B，写几个单元测试就能覆盖。AI 应用不一样，同样的输入可能每次给出不同的结果，没法靠“跑一次看看”来判断质量。读完这两章之后，你会在开发 AI 应用时刻意去做评估。比如我自己写提示词，会维护一个测试集，每次换模型或者改了提示词，就跑一遍，看结果是更好了还是更差了。

书中还有大量来自 OpenAI、谷歌、Anthropic、LinkedIn 等公司的一手案例和访谈，不是概念性的引用，而是具体到工程决策和实际遇到的问题。比如 LinkedIn 花了 1 个月达到 80% 的效果，又花了 4 个月才超过 95%，初期的成功让他们严重低估了后续改进的难度。

对每个技术方案，书里都给出了“怎么做”和“如何权衡”。不只是告诉你 RAG 怎么实现，还会分析什么时候该用 RAG、什么时候该微调、什么时候两个都不需要。

适合谁读

如果你在做 AI 应用开发，这本书能帮你把零散的经验串成体系。技术负责人和工程经理想给团队定 AI 开发流程的，书里的框架可以直接参考。产品经理读完会更清楚 AI 能做什么、不能做什么，和工程师沟通也更有共同语言。

不需要有深厚的 ML 背景。Chip 的写作从第一性原理出发，逐层深入，遇到技术密集的部分会提前提醒，不感兴趣可以跳过。

为什么我要翻译这本书

我一直不太敢碰 AI 相关图书的翻译。原因很简单：这个领域变化太快了。昨天你还在为某个大模型的能力赞叹，今天新的 SOTA 模型就发布了，明天可能一个新框架又宣称要颠覆一切。

具体工具的教程写出来就过时了，甚至一些曾经流行的技术架构也在被淘汰。我们需要的是那些不随时间快速变化、但又确实能用得上的知识。

这本书关注的恰好是这类知识。它不教你怎么用某个版本的 LangChain，而是让你理解 RAG 为什么有效；不展示最新的提示词技巧，而是解释提示工程背后的原理。用 Chip 自己的话说：

“工具更新换代很快，底层知识的生命力更为持久。”

理解问题的本质比追逐最新的工具有用得多，这是我选择翻译这本书的原因。

翻译中的 AI 工作流

翻译一本讲 AI 工程的书，不用 AI 来辅助说不过去。但 AI 辅助翻译不是把原文丢给大模型然后复制粘贴，它是一个完整的工程流程：

HTML 转 Markdown → 提取专业术语表 → GPT-4.5 翻译初稿 → Gemini 2.5 Pro 辅助校对 → 人工审校

HTML 转 Markdown 是出版社编辑部帮忙解决的。这一步很关键，PDF 的格式信息（分栏、脚注、代码块）如果处理不好，后续所有环节都会受影响。

提取专业术语，翻译之前先提取全书的专业术语，建立统一的术语表。这确保了 foundation model 在全书中始终翻译为“基础模型”，而不是某一章叫“基础模型”另一章变成“底座模型”。

GPT-4.5 翻译初稿，脚本自动化，按章节批量处理。选 GPT-4.5 是因为在当时它是综合质量最好的翻译模型，代价是贵。

Gemini 2.5 Pro 辅助校对。Gemini 的长上下文支持很好，可以一次放入一整个小节的内容，对照原文检查译文的准确性和流畅度。这一步更多是手动操作，因为校对需要精细的判断。

人工审校，最后也是最重要的一步。我和两位审校者何文斯、李瀚，以及图灵的编辑团队一起，逐字逐句地过了全书。方法是把自己当作读者，看不通顺的地方、有歧义的地方、术语不一致的地方，逐一标记修改。版本管理用 Git，每次修改都记录内容和原因，方便回溯和多人协作。

几个实用的翻译经验

抽卡好过修改。这是我在整个过程中最深的体会。让 AI 一次生成多份翻译结果，从中选最好的那份，效率远高于在一份不够好的结果上反复微调。生成是廉价的，判断是昂贵的，但判断比修改便宜。

模型各有所长。 GPT-4.5 的翻译质量稳定，很少出现明显的硬伤；Gemini 2.5 Pro 的长上下文能力让它在校对环节表现突出，能同时看到足够多的前后文来发现一致性问题。两个模型配合使用，比只用一个效果好得多。

流程比工具重要。 AI 翻译最容易出问题的地方不是模型选错了，而是没有流程。术语表、版本管理、分步质检，这些工程化的做法决定了最终质量的下限。

如果现在重新来做这件事，我会用 Claude Opus 4.6 做翻译（它的中文表达质量很高），用 GPT-5.2 Pro 做校对，同时用 Claude Code 加上 Agent Skills 让更多步骤自动化。工具在进步，但流程的思路不会过时。Chip 在书里也反复说这一点。

感谢图灵出版社的刘美英编辑，从选题到出版全程推进，很多繁琐但关键的工作都是她在背后完成的。感谢两位审校者何文斯和李瀚，他们投入了大量时间逐章审读，纠正了许多我自己没有发现的问题。

感兴趣的读者可以去看看。翻译这本书的过程本身也印证了书中的一个观点：AI 工程不是一次性的调用，而是一个需要精心设计的系统。翻译工作流如此，AI 应用亦如此。

图灵社区 https://www.ituring.com.cn/book/3404 可以购买电子版。

AI Engineering: Building Applications with Foundation Models

AI Summary

More Articles

THE INVISIBLE ARMY: INSIDE THE 2026 DEMOCRATIC GROUND GAME THAT REPUBLICANS DON'T EVEN KNOW EXISTS

Everything You Need to Know About Claude Cowork - A Complete Course in One Article

War Reveals the Truth: Russian and Chinese Weapons Are Outmatched

Five Years Ago I Started an Internet Experiment