Back to Articles
Feb 25, 20262 weeks ago

Anthropic's Tweet Sparked a Global AI Community's United Ridicule

数字生命卡兹克@Khazix0918

AI Summary

This article dissects a recent controversy where Anthropic, the creator of Claude, publicly accused several Chinese AI firms of conducting "industrial-scale distillation attacks." The piece begins by unpacking the technical and ethical absurdity of the accusation, noting how the global AI community swiftly and overwhelmingly mocked Anthropic for its hypocrisy. The core of the article then explains why this backlash occurred, delving into Anthropic's own $1.5 billion legal settlement for training Claude on millions of pirated books and ongoing lawsuits over allegedly using pirated music. This stark double standard forms the central argument: a company built on contested data sources is poorly positioned to accuse others of similar, albeit different, data acquisition practices. Moving beyond the immediate drama, the author elevates the discussion to a more profound level about the nature of "theft" in the AI age. It challenges the simplistic binary of "stealing" intellectual property by comparing data replication—where nothing is physically removed—to historical precedents like the United States' own past as a piracy haven before becoming a copyright champion. The piece thoughtfully questions whether AI learning is fundamentally different from human creativity, which is itself a distillation of all prior influences. It argues that the current copyright debates are a new iteration of an old cycle of technological disruption and that reducing it to accusations of theft obscures the complex legal, ethical, and geopolitical balances that need to be struck, especially concerning who gets to control the future of foundational AI models. This article is not just a summary of an online firestorm; it's a compelling invitation to think critically about the foundational tensions shaping the AI industry. The narrative seamlessly blends technical explanation, legal analysis, and philosophical inquiry, making a complex issue accessible and engaging. To fully appreciate the nuances of this pivotal moment and the critical questions it raises about power, innovation, and hypocrisy, reading the full account is essential.

昨天,看到了一个特别离谱的事。

特别有意思。

Anthropic(就是做Claude的那家公司)在官网发了一篇博客,标题起的特别正式,叫《检测和防止蒸馏攻击》。

我本来以为是啥学术报告或者新论文,点进去一看,嚯。

内容大意是说,他们发现了三家中国AI公司,分别是DeepSeek、Moonshot(就是Kimi的母公司)和MiniMax,对Claude进行了"工业规模的蒸馏攻击"。

我看到我都懵了,蒸馏攻击,我说实话,这词我第一次知道能这么组合在一起用的。

然后又说,造成了重大国家安全风险。。。

然后他们也发了一个X,直接爆了,现在将近3000万的阅读。

最搞笑的是,这个评论区炸了。

不是那种底下歌舞升平,一片支持Anthropic维护权益的炸。

是那种,你个Anthropic也有碧莲说别人的炸。

一条推文,引起全网群嘲,我说实话,已经很久没有看到全世界的AI圈联合起来,一起群嘲,同仇敌忾的了。。。

我随手给大家贴几个看看。。。

有人说,你们不也最开始从OpenAI蒸馏的吗。

然后经典的梗图就出来了。。。

真的,底下一堆人骂的。

甚至还有人贴出了Claude Sonnet 4.6 API输出经典问题“你是什么模型”的图,然后发现,Sonnet 4.6说自己是DeepSeek。。。

天下模型一大蒸,你清高你别用当年蒸了DeepSeek的数据去训练啊。

给不太了解技术的朋友解释一下什么叫"蒸馏"。

蒸馏(Distillation)是AI行业一个非常常见的训练技术。

简单说,就是用一个大模型,也就是常说的教师模型的输出来训练一个小模型(也叫学生模型),让小模型能够学到大模型的一部分能力,但体积更小、运行更快、成本更低。

打个比方,你可以简单的把它理解成师傅带徒弟。

徒弟不需要重走师傅几十年的路,只要跟着师傅学,看师傅怎么处理问题,模仿师傅的思路,就能在短时间内获得不错的能力。

至于为什么叫蒸馏,这个词其实是从化学里借来的。

化学上的蒸馏是把混合物加热,让沸点低的成分先变成蒸汽,然后冷凝收集,得到更纯净的物质。

AI里的蒸馏也是类似的意思,从一个复杂的大模型里提取出精华,灌注到一个更小的模型里。

这也是我们常说的,为啥蒸馏的模型大概率整体能力是不如被蒸馏的模型的。

你可能见过一些场景,就比如每次有新模型发布,评论区总有一堆人跑去问"你是什么模型"之类的话。

如果模型回答了"我是GPT-XX"或者"我是Claude XX",马上就有人截图发帖:"你看,套壳吧。"

这个测试方法其实挺扯淡的。

套壳是你直接调用别人的API,包一层皮就说是自己的模型,这是欺骗。

而蒸馏是你用别人的输出作为训练数据,训练出一个全新的模型。

这个模型的权重是你自己的,推理是在你自己的服务器上跑的,跟原模型可以说已经没有任何直接关系了。

所以说,蒸馏这个事,本身其实是很正常的行为。

Anthropic自己也用蒸馏来做Claude的小模型,比如从Opus蒸馏出Sonnet,再从Sonnet蒸馏出Haiku。OpenAI也这么干,Google也这么干,大家都这么干。

问题在于,你蒸馏自己的模型没问题,但如果你蒸馏别人的模型,那就涉及到一个关键问题:

你获取那些训练数据的方式,合法吗?

Anthropic说这三家中国公司创建了24000个假账户来大规模提取Claude的输出,从某种意义上讲,这确实违反了Anthropic它自己的服务条款。

但网友们暴动的原因也特别简单,就是你Anthropic有什么脸说别人?

就像马斯克说的。

2025年9月,Anthropic达成了一项历史性的和解协议,花了15亿美元。

这应该是美国版权诉讼史上最大的和解金额。

Anthropic被发现从盗版网站LibGen和PiLiMi下载了超过700万本书,用来训练Claude。

这些书都是有版权的,作者们没有同意,也没有拿到任何报酬。

对,你没看错,Anthropic从盗版网站下书然后训模型。。。

这个案子的来龙去脉也挺有意思的。

2024年的时候,三位作家,分别是惊悚小说作家Andrea Bartz、非虚构作家Charles Graeber和Kirk Wallace Johnson,这三个大神,把Anthropic告上了法庭。

因为他们发现自己的书被用来训练Claude,但没人问过他们同意不同意。

后来呢,调查发现,Anthropic不只是用了这几个人的书,它建了一个巨大的中央图书馆,目标贼离谱,是收集全世界所有的书,而且要永远保留。

收集方式也很有意思。

一部分是花钱买的,买完以后把书脊拆掉,一页一页扫描,然后销毁原书。

这个操作虽然粗暴,但咋说呢,从法律上说是合法的。

但另一部分就相当呆逼了,从LibGen和PiLiMi这些盗版网站上下载。

LibGen是全球最大的盗版电子书网站,被各国执法机构围追堵截了好几轮,但一直死而不僵。

Anthropic在2021年6月从LibGen下载了大约500万本书,2022年7月又从PiLiMi下载了大约200万本。

法官William Alsup在判决中说了一句很精彩的话:

"你不能仅仅因为声称自己有研究目的,就去拿走任何你想要的教科书。"

有意思的是,法官同时做出了两个判决:

第一,用合法购买的书籍来训练AI模型,属于合理使用,不构成侵权。这个判决对AI行业其实是一个利好消息。

法官说这种使用是"我们这辈子能看到的最具变革性的使用之一",因为AI模型学习的是模式和规律,不是要复制或取代原作。

第二,用盗版书籍来训练AI模型,不属于合理使用,构成侵权,这是Anthropic输掉的部分。

法官原话是:"盗版本身就是侵权,不可救药的侵权,不管你拿盗版的东西去做什么。"

所以从这个判决上,能看出来美国那边司法的态度,就是训练AI本身可以是合法的,但你获取数据的方式必须合法。

按照美国版权法,故意侵权的赔偿金可以高达每部作品15万美元,50万本书乘以15万美元,那就是750亿美元。当然不可能真赔这么多,但Anthropic面临的风险确实也是没法整的级别。

所以它选择了和解,赔了15亿美元,大约是每本书3000美元。

但其实这还没完。

2026年1月,音乐出版商们又对Anthropic提起了新的诉讼,指控它通过BitTorrent下载了超过2万首歌曲来训练Claude,涉及的歌曲包括"Wild Horses"、"Sweet Caroline"、"Bennie and the Jets"、"Eye of the Tiger"这些经典名曲。

这个案子目前还在审理中,索赔金额据说高达30亿美元。

所以你看,什么叫双标。

这就是双标。

Anthropic一边在说中国公司偷它的模型输出,一边自己在用盗版书籍和歌曲训练模型。

所以啊。。。

说实话,这件事吃完瓜也就算了。

但是,有一个点,我其实还想聊一聊。

就是在AI时代,“偷”这个字,到底意味着什么。

因为我自己是做UI出身的,所以呢,UI圈子里,之前一直有一个很经典的故事。

当年苹果的Mac之所以能有革命性的图形用户界面,也就是GUI,是因为乔布斯参观了施乐的帕洛阿尔托研究中心(PARC),看到了他们开发的图形界面原型,然后就"借鉴"了过来。

乔布斯暴跳如雷,说比尔盖茨偷了苹果的东西。

比尔盖茨的回应贼经典:

"我们都有一个有钱的邻居叫施乐,我闯进他家想偷电视,结果发现你已经偷走了。"

传统意义上的偷,是你拿走了东西,别人就没有了,你偷了我的钱包,我的钱包就不见了,这是一个零和游戏。

但数据不一样,我复制了你的数据,你的数据还在那儿,没有减少一个字节。

从物理意义上说,什么都没有丢。

所以,这就引出了一个非常老的问题。

知识产权到底是不是一种真正的财产?

有一派观点认为,知识产权是人类社会为了激励创新而人为创造的制度,本质上是一种垄断权。

托马斯杰斐逊之前说过一句话,大概意思就是,思想就像火焰,我用你的火点燃我的蜡烛,你的火不会变小。

如果按这个逻辑,"偷"知识产权这个说法本身就是有问题的,因为你并没有拿走任何东西。

但另一派观点认为,创作者付出了时间、精力和天赋来创造作品,他们理应获得回报。

如果任何人都可以免费使用他们的作品,那谁还愿意创作?从这个角度说,"偷"知识产权就是偷走了创作者本应获得的收益。

这两种观点坦诚的讲,我自己作为一个创作者,我认为都有道理,人类争论了几百年也没有定论。

但AI的出现把这个问题推到了一个新的极端。

有人可能会说,那不还是侵犯了版权吗?没错,但这里面有一个很微妙的悖论。

AI公司用盗版书籍训练模型,这是违法。

AI公司用合法购买的书籍训练模型,这是合法。

有人用AI公司的模型输出训练自己的模型,违反服务条款。

有一个很老的笑话:

一个人偷了另一个人的钱包,然后钱包又被第三个人偷走了。第一个小偷报警说自己的钱包被偷了,警察问他:"你自己的钱包???"

19世纪的美国,是全球最大的盗版国家。当时美国不承认外国作品的版权,英国作家的书在美国被疯狂盗印,狄更斯每次访问美国都要骂一通。美国出版商就非常理直气壮,说,知识应该属于全人类,凭什么要付钱给英国人?

后来美国自己的文化产业发展起来了,好莱坞成了全球电影中心,美国突然就变成了全世界最积极的知识产权捍卫者。

历史总是惊人地相似。

我不是说谁对谁错,我只是觉得这种我可以你不行的态度,确实也挺抽象的。

坦率的讲,AI行业现在面临的版权问题,其实是整个技术史上反复出现的老问题的新版本。

印刷机发明的时候,手抄圣经的修士们抗议过,录音技术发明的时候,现场音乐家们抗议过,录像机发明的时候,好莱坞抗议过。

每一次,都有人说新技术会毁掉创作者。

但每一次,最后都找到了某种平衡。

但这次的新问题在于。

AI不只是复制和分发内容,它也在学习如何创造新内容。

这就触及到了另一个更根本的问题,人类的创造力本身是可以被复制的吗?

我自己写公众号三年多了,说实话,我写的每一篇文章,都是我读过的所有书、看过的所有电影、聊过的所有天的某种"蒸馏"。

我没有付钱给每一个影响过我的作者和创作者。

但没人会说我"偷"了他们。

因为我是人类,学习和创作是人类的基本权利。

那AI呢,AI学习人类的作品,创造新的内容,这算"偷"吗?

这就像望远镜之于人眼。

望远镜让人类能看到肉眼看不到的东西,但我们不会说望远镜偷了星星的光。

AI让人类能处理和学习肉脑处理不了的信息量,那我们为什么要说AI偷了数据呢?

当然,这个类比也不完美。望远镜不会直接输出跟星星一模一样的东西,但AI有时候会输出跟训练数据很像的内容。

乱糟糟的说了这么多,有点乱。

但我想表达的是,关于AI和版权的争论,不应该简化成"偷"或"不偷"的二元对立。

这里面有太多的灰色地带,需要法律、伦理、技术等多个领域的专家一起来讨论。

而某些公司打着保护版权的旗号,更需要警惕一下。

如果只有少数几家公司可以训练大模型,而且这些公司还都在美国,那对全世界的其他国家来说,意味着什么?

这个问题。

答案我相信大家都懂。

By
数字生命卡兹克