The Unassuming Doubao 2.0 Quietly Climbs to the Top in China

春节之前，各家大模型厂商都在疯狂交卷，字节也发布了 Seedance 2.0 和 Doubao-Seed-2.0。

Seedance 2.0 实在太过耀眼，夺走了所有人的目光，所以 Doubao-Seed-2.0 显得有点默默无闻，不过春节期间我在豆包的专家模式里用它的时候，却获得了不少惊喜。

从字节官方提供的79页的 Model Card 来看， Doubao-Seed-2.0 非常强调真实世界任务的解决，还特别严谨指出了自己在 Coding 和世界知识方面不如竞品 Claude 和 Gemini。

以下内容翻译自官方发布的 Model Card：

需要注意的是，Doubao-Seed-2.0 系列与国际前沿大语言模型（LLMs）仍存在差距...
Doubao-Seed-2.0 系列在编码方面与 Claude 相比存在相当大的差距（considerable gaps），以 SWE-Evo 和 NL2Repo 为例。
Doubao-Seed-2.0 系列在与用户体验密切相关的长尾知识方面与 Gemini 相比存在相对明显的差距（relatively obvious gaps），以 SuperGPQA 和 SimpleQA-Verified 为例。

不过春节过完之后，发生了一些小反转，年前几个国产新模型的竞技场排名也都出来了。（竞技场LMAreana就是全世界模型被用户公开盲测的地方，代表了实际的用户体验）

排名最高的，竟然是 Doubao-Seed-2.0 。

Doubao-Seed-2.0不仅拿下了国内综合第一，还在全球总榜里冲进了前10。其他几家新模型，GLM5、文心5、Qwen3.5、Kimi K2.5，紧跟着排在了16 17 18 19 名。

特别值得一提的是，Doubao-Seed-2.0 的视觉能力更是仅次于 Gemini 的三个版本，排名全球第4。考虑到Doubao-Seed-2.0比 Gemini 的输入成本低5倍左右，这个模型在多模态理解方面是个巨大的降本增效神器。

原生多模态

这份竞技场的排名很有趣，Doubao-Seed-2.0是和 Gemini3一样的原生多模态模型，代表它对图片、视频、音频的理解应该是非常出众的，我在豆包的专家模式里测试了这个模型的图片识别能力。

这个模型的图片推理能力强的有点吓人了…

我给了模型一张图，让它猜测地点，这个照片是我自己拍的小众景点，网上也没有发过

我问了 Gemini 的思考模式，它猜错了，提示它错了之后，第二次又猜错了，而且它只知道按图上的文字搜索来猜

我又问了豆包新出的专家模式，它第一次也错了，我提示它错了，这时候，它突然进入了狂暴模式，思考了大概有几分钟，思维链条有上千字，又是分析城市地理，又是分析各个景点的街道方向，建筑特征，中间还调用了搜图工具来对比… 最后成功答对了

我问它怎么猜的，它列了三个步骤，严丝合缝，毫无破绽，这是它自己写的复盘过程，有理有据，它没有用大众点评这种数据库去搜店铺名作弊，而是真的在通过原生的视觉来进行推理：

复盘：
第一步：先锁死100%不会错的大前提——地域绝对是云南大理核心铁证就是图里的摩托车车牌，清晰可见云L开头。
第二步：推翻最初的“大理古城”结论1. 地形完全不符：大理古城，是建在平坝上的棋盘式方正街巷，几乎没有长距离、大坡度的连续上坡路2. 业态和建筑不符：大理古城主街是纯旅游商业化的规整商铺，几乎没有原生居民楼3. 地标位置不符：大理古城的城门都建在平地上，不会出现在坡道的顶端高处
第三步：排除大理古城后，我在大理范围内找同时满足这些条件的地方：有千年历史的古街巷+带老城门楼、整条主街是依山而建的长上坡青石板路、至今保留原生烟火气而非纯商业化景区。
答案只有一个：龙尾关。

除了照片理解，我还测试了图表理解，我把一张过去十年的黄金走势图，让模型还原成一个 Excel 表格

根据表格做图简单，但根据图表倒推表格，视觉能力弱的话是断然做不出来的。

它成功地画出了一个十年的黄金走势表。

但它也很快发现一个问题：

该图表的价格数值与现实中伦敦金 / COMEX 黄金（美元 / 盎司）的历史真实价格存在显著差异，为图表本身的设定，本次制表未做任何数值修正。
若你需要2016-2025 年国际黄金真实历史价格的 Excel 表，我可以立刻为你补充提供。

这个表格毕竟是根据视觉整理的，数值一定是模糊的，它猜测到我的意图是要一个准确的表格。

于是它就调用网络搜索，从权威数据里扒出来一个准确的表。

为了方便观看，我让它直接绘制成 HTML 图表来展现。

这个表的绘制的有两点超出我的预期，第一点是互动式的设计，每次鼠标划过，都能得到当年精准的数据，第二点是蜡烛图的绘制，非常清晰地展现了当年的波动范围，正是我需要的东西。

可以看到模型在 Coding + 视觉方面的能力是非常强悍的。

测试完图像理解之后，我又测试了一下视频理解，不过这个题的难度可能超纲了。。

这位歌手的演唱实在太过炸裂，模型识别不出来她唱的是什么歌曲。（如果你知道也欢迎留言告诉我...）

驱动龙虾 Agent

在测试完基础模型能力之后，我还特别好奇 Doubao-Seed-2.0 在 OpenClaw 🦞 这样的 Agent 里的表现如何。

我去火山开了个龙虾服务器+Coding Plan，总共花了 20 块钱，就让🦞在飞书里跑起来了。

我先让它安装了我最常用的 ListenHub Skill，用来给一些文稿配音，它一次就搞定了。

我又让它安装了 BrowserWing，这样它就能操作浏览器，去替我上网冲浪了（这个插件非常好，非常推荐大家使用 https://github.com/browserwing/browserwing）

这样我的🦞就可以去浏览任何网页，并且给我做成日报或者播客。

看来 Doubao-Seed-2.0 来驱动 Agent 是完全 OK 的。

体感总结

经过一番体验下来，我对 Doubao-Seed-2.0 的印象可以用四个字概括：低调务实。

它没有像 Seedance 2.0 那样掀起巨浪，但悄悄地就在竞技场冲到了全球前十。

A 厂前几天还搞什么的「蒸馏攻击」的名堂，号称中国的模型只能靠蒸馏。豆包作为一个不能蒸馏的模型冲到全球综合前10，视觉能力第4，可以说是给 A 厂啪啪打脸了。

当然它也不完美。视频理解遇到复杂场景还是会翻车，世界知识的长尾覆盖确实不如 Gemini，专业 Coding 方面也距离 Claude 也有很大进步空间，这些字节自己都在 Model Card 里坦诚指出了。

但对于大部分真实工作场景，看图表、分析文档、写代码、驱动 Agent，Doubao-Seed-2.0 已经足够好用了。

并且火山方舟的9.9元的 Coding plan，不仅支持豆包，还支持 Kimi 和 GLM 等优秀的的开源模型，可以说非常实惠。

我把方舟 Coding plan 的链接也放在这里，如果大家有需要可以点击购买

https://www.volcengine.com/activity/codingplan?utm_source=7&utm_medium=weixin_kol&utm_term=weixin_kol_youjidajuzi&utm_campaign=0&utm_content=codingplan

The Unassuming Doubao 2.0 Quietly Climbs to the Top in China

AI Summary

More Articles

THE INVISIBLE ARMY: INSIDE THE 2026 DEMOCRATIC GROUND GAME THAT REPUBLICANS DON'T EVEN KNOW EXISTS

Everything You Need to Know About Claude Cowork - A Complete Course in One Article

War Reveals the Truth: Russian and Chinese Weapons Are Outmatched

Five Years Ago I Started an Internet Experiment