Back to Articles
Mar 2, 20261 week ago

The Unassuming Doubao 2.0 Quietly Climbs to the Top in China

OA
Orange AI@oran_ge

AI Summary

This article offers a fascinating, hands-on exploration of Doubao-Seed-2.0, a large language model from ByteDance that managed to fly under the radar. While its sibling model, Seedance 2.0, grabbed the headlines, Doubao-Seed-2.0 quietly achieved a surprising feat: it recently topped the domestic rankings and broke into the global top ten on a major public model evaluation platform. The piece delves into why this "unassuming" model is so compelling, particularly highlighting its exceptional and cost-effective native multimodal capabilities. Through a series of practical tests, the author discovers that Doubao-Seed-2.0 excels at real-world visual reasoning. It demonstrates an almost startling ability to analyze a personal photograph to deduce a location through logical deduction, not just image search. Furthermore, it can accurately interpret charts, extract data, and even generate interactive visualizations and code. The model also proves competent at driving AI agents for tasks like web browsing and content creation, showcasing its practical utility. Notably, the article contrasts these strengths with the model's own candid self-assessment, which acknowledges gaps in specialized coding and world knowledge compared to leading international counterparts. Ultimately, the review paints a picture of a powerful, pragmatic tool that delivers exceptional value for everyday tasks. It presents a compelling case for looking beyond the usual hype and examining what a model can actually do. To see the full breakdown of its surprising capabilities, intriguing limitations, and the detailed test results that led to these conclusions, the complete article is well worth your time.

春节之前,各家大模型厂商都在疯狂交卷,字节也发布了 Seedance 2.0 和 Doubao-Seed-2.0。

Seedance 2.0 实在太过耀眼,夺走了所有人的目光,所以 Doubao-Seed-2.0 显得有点默默无闻,不过春节期间我在豆包的专家模式里用它的时候,却获得了不少惊喜。

从字节官方提供的79页的 Model Card 来看, Doubao-Seed-2.0 非常强调真实世界任务的解决,还特别严谨指出了自己在 Coding 和世界知识方面不如竞品 Claude 和 Gemini。

以下内容翻译自官方发布的 Model Card:

需要注意的是,Doubao-Seed-2.0 系列与国际前沿大语言模型(LLMs)仍存在差距...
Doubao-Seed-2.0 系列在编码方面与 Claude 相比存在相当大的差距(considerable gaps), 以 SWE-Evo 和 NL2Repo 为例。
Doubao-Seed-2.0 系列在与用户体验密切相关的长尾知识方面与 Gemini 相比存在相对明显的差距(relatively obvious gaps), 以 SuperGPQA 和 SimpleQA-Verified 为例。

不过春节过完之后,发生了一些小反转,年前几个国产新模型的竞技场排名也都出来了。(竞技场LMAreana就是全世界模型被用户公开盲测的地方,代表了实际的用户体验)

排名最高的,竟然是 Doubao-Seed-2.0 。

Doubao-Seed-2.0不仅拿下了国内综合第一,还在全球总榜里冲进了前10。其他几家新模型,GLM5、文心5、Qwen3.5、Kimi K2.5,紧跟着排在了16 17 18 19 名。

特别值得一提的是,Doubao-Seed-2.0 的视觉能力更是仅次于 Gemini 的三个版本,排名全球第4。考虑到Doubao-Seed-2.0比 Gemini 的输入成本低5倍左右,这个模型在多模态理解方面是个巨大的降本增效神器。

原生多模态

这份竞技场的排名很有趣,Doubao-Seed-2.0是和 Gemini3一样的原生多模态模型,代表它对图片、视频、音频的理解应该是非常出众的,我在豆包的专家模式里测试了这个模型的图片识别能力。

这个模型的图片推理能力强的有点吓人了…

我给了模型一张图,让它猜测地点,这个照片是我自己拍的小众景点,网上也没有发过

我问了 Gemini 的思考模式,它猜错了,提示它错了之后,第二次又猜错了,而且它只知道按图上的文字搜索来猜

我又问了豆包新出的专家模式,它第一次也错了,我提示它错了,这时候,它突然进入了狂暴模式,思考了大概有几分钟,思维链条有上千字,又是分析城市地理,又是分析各个景点的街道方向,建筑特征,中间还调用了搜图工具来对比… 最后成功答对了

我问它怎么猜的,它列了三个步骤,严丝合缝,毫无破绽,这是它自己写的复盘过程,有理有据,它没有用大众点评这种数据库去搜店铺名作弊,而是真的在通过原生的视觉来进行推理:

复盘:
第一步:先锁死100%不会错的大前提——地域绝对是云南大理核心铁证就是图里的摩托车车牌,清晰可见云L开头。
第二步:推翻最初的“大理古城”结论1. 地形完全不符:大理古城,是建在平坝上的棋盘式方正街巷,几乎没有长距离、大坡度的连续上坡路2. 业态和建筑不符:大理古城主街是纯旅游商业化的规整商铺,几乎没有原生居民楼3. 地标位置不符:大理古城的城门都建在平地上,不会出现在坡道的顶端高处
第三步:排除大理古城后,我在大理范围内找同时满足这些条件的地方:有千年历史的古街巷+带老城门楼、整条主街是依山而建的长上坡青石板路、至今保留原生烟火气而非纯商业化景区。
答案只有一个:龙尾关。

除了照片理解,我还测试了图表理解,我把一张过去十年的黄金走势图,让模型还原成一个 Excel 表格

根据表格做图简单,但根据图表倒推表格,视觉能力弱的话是断然做不出来的。

它成功地画出了一个十年的黄金走势表。

但它也很快发现一个问题:

该图表的价格数值与现实中伦敦金 / COMEX 黄金(美元 / 盎司)的历史真实价格存在显著差异,为图表本身的设定,本次制表未做任何数值修正。
若你需要2016-2025 年国际黄金真实历史价格的 Excel 表,我可以立刻为你补充提供。

这个表格毕竟是根据视觉整理的,数值一定是模糊的,它猜测到我的意图是要一个准确的表格。

于是它就调用网络搜索,从权威数据里扒出来一个准确的表。

为了方便观看,我让它直接绘制成 HTML 图表来展现。

这个表的绘制的有两点超出我的预期,第一点是互动式的设计,每次鼠标划过,都能得到当年精准的数据,第二点是蜡烛图的绘制,非常清晰地展现了当年的波动范围,正是我需要的东西。

可以看到模型在 Coding + 视觉方面的能力是非常强悍的。

测试完图像理解之后,我又测试了一下视频理解,不过这个题的难度可能超纲了。。

这位歌手的演唱实在太过炸裂,模型识别不出来她唱的是什么歌曲。(如果你知道也欢迎留言告诉我...)

驱动龙虾 Agent

在测试完基础模型能力之后,我还特别好奇 Doubao-Seed-2.0 在 OpenClaw 🦞 这样的 Agent 里的表现如何。

我去火山开了个龙虾服务器+Coding Plan,总共花了 20 块钱,就让🦞在飞书里跑起来了。

我先让它安装了我最常用的 ListenHub Skill,用来给一些文稿配音,它一次就搞定了。

我又让它安装了 BrowserWing,这样它就能操作浏览器,去替我上网冲浪了(这个插件非常好,非常推荐大家使用 https://github.com/browserwing/browserwing)

这样我的🦞就可以去浏览任何网页,并且给我做成日报或者播客。

看来 Doubao-Seed-2.0 来驱动 Agent 是完全 OK 的。

体感总结

经过一番体验下来,我对 Doubao-Seed-2.0 的印象可以用四个字概括:低调务实。

它没有像 Seedance 2.0 那样掀起巨浪,但悄悄地就在竞技场冲到了全球前十。

A 厂前几天还搞什么的「蒸馏攻击」的名堂,号称中国的模型只能靠蒸馏。豆包作为一个不能蒸馏的模型冲到全球综合前10,视觉能力第4,可以说是给 A 厂啪啪打脸了。

当然它也不完美。视频理解遇到复杂场景还是会翻车,世界知识的长尾覆盖确实不如 Gemini,专业 Coding 方面也距离 Claude 也有很大进步空间,这些字节自己都在 Model Card 里坦诚指出了。

但对于大部分真实工作场景,看图表、分析文档、写代码、驱动 Agent,Doubao-Seed-2.0 已经足够好用了。

并且火山方舟的9.9元的 Coding plan,不仅支持豆包,还支持 Kimi 和 GLM 等优秀的的开源模型,可以说非常实惠。

我把方舟 Coding plan 的链接也放在这里,如果大家有需要可以点击购买

https://www.volcengine.com/activity/codingplan?utm_source=7&utm_medium=weixin_kol&utm_term=weixin_kol_youjidajuzi&utm_campaign=0&utm_content=codingplan

By
OAOrange AI