Anthropic's Tweet Sparked a Global AI Community's United Ridicule

昨天，看到了一个特别离谱的事。

特别有意思。

Anthropic（就是做Claude的那家公司）在官网发了一篇博客，标题起的特别正式，叫《检测和防止蒸馏攻击》。

我本来以为是啥学术报告或者新论文，点进去一看，嚯。

内容大意是说，他们发现了三家中国AI公司，分别是DeepSeek、Moonshot（就是Kimi的母公司）和MiniMax，对Claude进行了"工业规模的蒸馏攻击"。

我看到我都懵了，蒸馏攻击，我说实话，这词我第一次知道能这么组合在一起用的。

然后又说，造成了重大国家安全风险。。。

然后他们也发了一个X，直接爆了，现在将近3000万的阅读。

最搞笑的是，这个评论区炸了。

不是那种底下歌舞升平，一片支持Anthropic维护权益的炸。

是那种，你个Anthropic也有碧莲说别人的炸。

一条推文，引起全网群嘲，我说实话，已经很久没有看到全世界的AI圈联合起来，一起群嘲，同仇敌忾的了。。。

我随手给大家贴几个看看。。。

有人说，你们不也最开始从OpenAI蒸馏的吗。

然后经典的梗图就出来了。。。

真的，底下一堆人骂的。

甚至还有人贴出了Claude Sonnet 4.6 API输出经典问题“你是什么模型”的图，然后发现，Sonnet 4.6说自己是DeepSeek。。。

天下模型一大蒸，你清高你别用当年蒸了DeepSeek的数据去训练啊。

给不太了解技术的朋友解释一下什么叫"蒸馏"。

蒸馏（Distillation）是AI行业一个非常常见的训练技术。

简单说，就是用一个大模型，也就是常说的教师模型的输出来训练一个小模型（也叫学生模型），让小模型能够学到大模型的一部分能力，但体积更小、运行更快、成本更低。

打个比方，你可以简单的把它理解成师傅带徒弟。

徒弟不需要重走师傅几十年的路，只要跟着师傅学，看师傅怎么处理问题，模仿师傅的思路，就能在短时间内获得不错的能力。

至于为什么叫蒸馏，这个词其实是从化学里借来的。

化学上的蒸馏是把混合物加热，让沸点低的成分先变成蒸汽，然后冷凝收集，得到更纯净的物质。

AI里的蒸馏也是类似的意思，从一个复杂的大模型里提取出精华，灌注到一个更小的模型里。

这也是我们常说的，为啥蒸馏的模型大概率整体能力是不如被蒸馏的模型的。

你可能见过一些场景，就比如每次有新模型发布，评论区总有一堆人跑去问"你是什么模型"之类的话。

如果模型回答了"我是GPT-XX"或者"我是Claude XX"，马上就有人截图发帖："你看，套壳吧。"

这个测试方法其实挺扯淡的。

套壳是你直接调用别人的API，包一层皮就说是自己的模型，这是欺骗。

而蒸馏是你用别人的输出作为训练数据，训练出一个全新的模型。

这个模型的权重是你自己的，推理是在你自己的服务器上跑的，跟原模型可以说已经没有任何直接关系了。

所以说，蒸馏这个事，本身其实是很正常的行为。

Anthropic自己也用蒸馏来做Claude的小模型，比如从Opus蒸馏出Sonnet，再从Sonnet蒸馏出Haiku。OpenAI也这么干，Google也这么干，大家都这么干。

问题在于，你蒸馏自己的模型没问题，但如果你蒸馏别人的模型，那就涉及到一个关键问题：

你获取那些训练数据的方式，合法吗？

Anthropic说这三家中国公司创建了24000个假账户来大规模提取Claude的输出，从某种意义上讲，这确实违反了Anthropic它自己的服务条款。

但网友们暴动的原因也特别简单，就是你Anthropic有什么脸说别人？

就像马斯克说的。

2025年9月，Anthropic达成了一项历史性的和解协议，花了15亿美元。

这应该是美国版权诉讼史上最大的和解金额。

Anthropic被发现从盗版网站LibGen和PiLiMi下载了超过700万本书，用来训练Claude。

这些书都是有版权的，作者们没有同意，也没有拿到任何报酬。

对，你没看错，Anthropic从盗版网站下书然后训模型。。。

这个案子的来龙去脉也挺有意思的。

2024年的时候，三位作家，分别是惊悚小说作家Andrea Bartz、非虚构作家Charles Graeber和Kirk Wallace Johnson，这三个大神，把Anthropic告上了法庭。

因为他们发现自己的书被用来训练Claude，但没人问过他们同意不同意。

后来呢，调查发现，Anthropic不只是用了这几个人的书，它建了一个巨大的中央图书馆，目标贼离谱，是收集全世界所有的书，而且要永远保留。

收集方式也很有意思。

一部分是花钱买的，买完以后把书脊拆掉，一页一页扫描，然后销毁原书。

这个操作虽然粗暴，但咋说呢，从法律上说是合法的。

但另一部分就相当呆逼了，从LibGen和PiLiMi这些盗版网站上下载。

LibGen是全球最大的盗版电子书网站，被各国执法机构围追堵截了好几轮，但一直死而不僵。

Anthropic在2021年6月从LibGen下载了大约500万本书，2022年7月又从PiLiMi下载了大约200万本。

法官William Alsup在判决中说了一句很精彩的话：

"你不能仅仅因为声称自己有研究目的，就去拿走任何你想要的教科书。"

有意思的是，法官同时做出了两个判决：

第一，用合法购买的书籍来训练AI模型，属于合理使用，不构成侵权。这个判决对AI行业其实是一个利好消息。

法官说这种使用是"我们这辈子能看到的最具变革性的使用之一"，因为AI模型学习的是模式和规律，不是要复制或取代原作。

第二，用盗版书籍来训练AI模型，不属于合理使用，构成侵权，这是Anthropic输掉的部分。

法官原话是："盗版本身就是侵权，不可救药的侵权，不管你拿盗版的东西去做什么。"

所以从这个判决上，能看出来美国那边司法的态度，就是训练AI本身可以是合法的，但你获取数据的方式必须合法。

按照美国版权法，故意侵权的赔偿金可以高达每部作品15万美元，50万本书乘以15万美元，那就是750亿美元。当然不可能真赔这么多，但Anthropic面临的风险确实也是没法整的级别。

所以它选择了和解，赔了15亿美元，大约是每本书3000美元。

但其实这还没完。

2026年1月，音乐出版商们又对Anthropic提起了新的诉讼，指控它通过BitTorrent下载了超过2万首歌曲来训练Claude，涉及的歌曲包括"Wild Horses"、"Sweet Caroline"、"Bennie and the Jets"、"Eye of the Tiger"这些经典名曲。

这个案子目前还在审理中，索赔金额据说高达30亿美元。

所以你看，什么叫双标。

这就是双标。

Anthropic一边在说中国公司偷它的模型输出，一边自己在用盗版书籍和歌曲训练模型。

所以啊。。。

说实话，这件事吃完瓜也就算了。

但是，有一个点，我其实还想聊一聊。

就是在AI时代，“偷”这个字，到底意味着什么。

因为我自己是做UI出身的，所以呢，UI圈子里，之前一直有一个很经典的故事。

当年苹果的Mac之所以能有革命性的图形用户界面，也就是GUI，是因为乔布斯参观了施乐的帕洛阿尔托研究中心（PARC），看到了他们开发的图形界面原型，然后就"借鉴"了过来。

乔布斯暴跳如雷，说比尔盖茨偷了苹果的东西。

比尔盖茨的回应贼经典：

"我们都有一个有钱的邻居叫施乐，我闯进他家想偷电视，结果发现你已经偷走了。"

传统意义上的偷，是你拿走了东西，别人就没有了，你偷了我的钱包，我的钱包就不见了，这是一个零和游戏。

但数据不一样，我复制了你的数据，你的数据还在那儿，没有减少一个字节。

从物理意义上说，什么都没有丢。

所以，这就引出了一个非常老的问题。

知识产权到底是不是一种真正的财产？

有一派观点认为，知识产权是人类社会为了激励创新而人为创造的制度，本质上是一种垄断权。

托马斯杰斐逊之前说过一句话，大概意思就是，思想就像火焰，我用你的火点燃我的蜡烛，你的火不会变小。

如果按这个逻辑，"偷"知识产权这个说法本身就是有问题的，因为你并没有拿走任何东西。

但另一派观点认为，创作者付出了时间、精力和天赋来创造作品，他们理应获得回报。

如果任何人都可以免费使用他们的作品，那谁还愿意创作？从这个角度说，"偷"知识产权就是偷走了创作者本应获得的收益。

这两种观点坦诚的讲，我自己作为一个创作者，我认为都有道理，人类争论了几百年也没有定论。

但AI的出现把这个问题推到了一个新的极端。

有人可能会说，那不还是侵犯了版权吗？没错，但这里面有一个很微妙的悖论。

AI公司用盗版书籍训练模型，这是违法。

AI公司用合法购买的书籍训练模型，这是合法。

有人用AI公司的模型输出训练自己的模型，违反服务条款。

有一个很老的笑话：

一个人偷了另一个人的钱包，然后钱包又被第三个人偷走了。第一个小偷报警说自己的钱包被偷了，警察问他："你自己的钱包？？？"

19世纪的美国，是全球最大的盗版国家。当时美国不承认外国作品的版权，英国作家的书在美国被疯狂盗印，狄更斯每次访问美国都要骂一通。美国出版商就非常理直气壮，说，知识应该属于全人类，凭什么要付钱给英国人？

后来美国自己的文化产业发展起来了，好莱坞成了全球电影中心，美国突然就变成了全世界最积极的知识产权捍卫者。

历史总是惊人地相似。

我不是说谁对谁错，我只是觉得这种我可以你不行的态度，确实也挺抽象的。

坦率的讲，AI行业现在面临的版权问题，其实是整个技术史上反复出现的老问题的新版本。

印刷机发明的时候，手抄圣经的修士们抗议过，录音技术发明的时候，现场音乐家们抗议过，录像机发明的时候，好莱坞抗议过。

每一次，都有人说新技术会毁掉创作者。

但每一次，最后都找到了某种平衡。

但这次的新问题在于。

AI不只是复制和分发内容，它也在学习如何创造新内容。

这就触及到了另一个更根本的问题，人类的创造力本身是可以被复制的吗？

我自己写公众号三年多了，说实话，我写的每一篇文章，都是我读过的所有书、看过的所有电影、聊过的所有天的某种"蒸馏"。

我没有付钱给每一个影响过我的作者和创作者。

但没人会说我"偷"了他们。

因为我是人类，学习和创作是人类的基本权利。

那AI呢，AI学习人类的作品，创造新的内容，这算"偷"吗？

这就像望远镜之于人眼。

望远镜让人类能看到肉眼看不到的东西，但我们不会说望远镜偷了星星的光。

AI让人类能处理和学习肉脑处理不了的信息量，那我们为什么要说AI偷了数据呢？

当然，这个类比也不完美。望远镜不会直接输出跟星星一模一样的东西，但AI有时候会输出跟训练数据很像的内容。

乱糟糟的说了这么多，有点乱。

但我想表达的是，关于AI和版权的争论，不应该简化成"偷"或"不偷"的二元对立。

这里面有太多的灰色地带，需要法律、伦理、技术等多个领域的专家一起来讨论。

而某些公司打着保护版权的旗号，更需要警惕一下。

如果只有少数几家公司可以训练大模型，而且这些公司还都在美国，那对全世界的其他国家来说，意味着什么？

这个问题。

答案我相信大家都懂。

Anthropic's Tweet Sparked a Global AI Community's United Ridicule

AI Summary

More Articles

THE INVISIBLE ARMY: INSIDE THE 2026 DEMOCRATIC GROUND GAME THAT REPUBLICANS DON'T EVEN KNOW EXISTS

Everything You Need to Know About Claude Cowork - A Complete Course in One Article

War Reveals the Truth: Russian and Chinese Weapons Are Outmatched

Five Years Ago I Started an Internet Experiment