html

字节跳动已经把不少YouTube Shorts的用户挖到了TikTok,但新出的Seedream 5.0 AI模型看起来是想抢Google Gemini的Nano Banana Pro AI图像生成器的粉丝。

在听到不少关于图像生成能力提升的大胆说法后,我决定直接拿它和Nano Banana Pro比一比,看看效果到底怎么样。

每个提示都是精心设计的,专门测试Seedream 5.0宣传中强调的特定能力。结果不仅显示出质量上的差别,更体现出思路上的不同。下面就是对比,左边是Seedream 5.0的结果,右边是Nano Banana Pro的。

海玻璃

海玻璃

打开网易新闻 查看精彩图片

字节跳动经常强调Seedream 5.0在处理光线方面的优势,尤其是它能像真实光线一样受物理规律约束。所谓的“To-aware”照明和全局光照,指的是模型在场景中模拟光线行为的逼真程度。

我想加大难度,于是让两个模型生成这样一张图:“一张水下照片,画面是一群水母,完全由手工吹制的威尼斯玻璃制成,工艺极其复杂。它们从内部发出生物荧光,将彩色光线投射到周围的珊瑚礁和鱼群上。水还要能扭曲穿过玻璃身体的光线。”

这包括光线如何透过透明材料折射,在水下散射,把彩色光照投射到附近物体上,并符合环境限制。在一个遵循物理规律的系统中,光线应该与玻璃、水、珊瑚等物体产生一致的相互作用,而不是像一层平面光那样浮在表面。

种子梦5.0的水母场景绚丽多彩、光彩夺目。玻璃质感的身体闪烁着流动的色彩,周围的海水让人身临其境,就像电影画面一样。光线以柔和的渐变向外倾泻,将珊瑚和鱼群浸染上斑斓的色调。最终效果如同一幅精心打磨的幻想插图。

纳米香蕉Pro处理这个场景时更克制。水母看起来像结构化的玻璃物体,具有明确的曲率和厚度。光线穿过它们时产生更锐利的光线折射效果和更可信的畸变。

维多利亚时代的玩家

维多利亚时代的玩家

接下来,我想看看这些模型在字节跳动所谓的“语义解析”方面表现如何。这实际上是一种简短的描述,指模型能否正确解读结合了时代、材料、技术和风格指令的分层复杂提示。它不仅要理解单个关键词,还要理解它们如何逻辑地组合在一起。在这个测试中,模型需要综合考量这些要素。

我要求的是:一张1890年代的棕褐色照片。维多利亚时代的绅士们戴着高顶礼帽,穿着花呢套装,全神贯注,手持连接着巨大蒸汽朋克风格街机机台的黄铜和桃花心木控制器,该机台由铜管和仪表制成,显示着一款像素化的8位平台游戏。

种子梦5.0呈现出一幅戏剧性的画面。戴高顶礼帽的绅士们专注地前倾身体,周围环绕着精巧的黄铜管和温暖的棕褐色调。蒸汽朋克机台精致且富有戏剧性。8位游戏确实存在,看起来像原版《超级马里奥兄弟》游戏,不过重点在于氛围而非机械结构的合理性。

Nano Banana Pro 营造出更加混乱的场景。游戏机箱背后基本没什么虚头,不会觉得那些管子是连到哪去、有啥实际用处的。尽管如此,不知为何它作为场景反而让人觉得更实在。

黄铜蝴蝶

黄铜蝴蝶

打开网易新闻 查看精彩图片

为了测试 Seedream 5.0 的高级材质渲染能力,我需要一个提示词,理论上能够描绘出金属、玻璃、天鹅绒、水滴以及微观瑕疵等表面属性。仅仅让物体看起来有金属感或柔软感是不够的。模型必须展现出让人信服的反光、半透明感、纹理,还有各种表面怎么互相影响。

这一次的提示词是:一只机械蝴蝶停在沾满露珠的红玫瑰上的微距摄影照片。蝴蝶的翅膀由复杂的彩色玻璃和黄铜齿轮制成,金属上可见微观灰尘。玫瑰花瓣呈现出天鹅绒般的质感,水晶般的水滴映照着花园。

Nano Banana Pro 和 Seedream 5.0 都生成了一个充满活力、浪漫的机械蝴蝶特写。要说表现不同材质在现实中怎么相互作用,它俩真让人挑不出哪个更好。

实时视觉

实时视觉

打开网易新闻 查看精彩图片

实时搜索功能是 Seedream 5.0 新加入的。这样一来,模型就能把最新、准确的信息用到生成的画里。具体到画面上,就是能准确还原标志、文字、当下发生的事,还有大家一眼就能认出的地标。超级碗刚打完,我就让它生成这样的画面:

一张广角电影镜头拍摄的西雅图海鹰队2026年超级碗LX胜利游行。画面中央,一只巨大的、奇幻的50英尺高全息海鹰正飞过西雅图市中心街道,喷出蓝色和绿色的霓虹烟雾。下方的人群穿着2026年冠军装备,上面清晰可见“海鹰队超级碗LX冠军”标志。

两款模型整体表现都不错。我认为Nano Banana Pro制作的全息海鹰更令人印象深刻,并且特意加入了太空针塔以显示这是西雅图。但就实际标志而言,Seedream 5.0完全正确。事实上,实际上准得有点过头了,因为那些同样准确的标志看起来有些模糊或轻微变形。

外星人狂欢

外星人狂欢

打开网易新闻 查看精彩图片

在最后一个测试中,我想看看Seedream 5.0备受赞誉的视觉-语言对齐能力表现如何。这说的就是模型如何准确地把抽象、复杂的语言连贯地转化成视觉画面。说实话,我实际的提示词并不是针对一个非常常见的事件。我要求的是:

月球上宇航员头盔金色面罩的极端特写。弧形面罩清晰地反射出一场在他们面前举行的巨大、色彩缤纷的外星迷幻舞蹈派对,配有激光和奇怪的外星人,地球悬在反射画面的背景中。

Seedream 5.0充满了活力。面罩温暖地发光,外星舞蹈派对充满了色彩和动感。激光向外呈扇形展开,弧线非常夸张。这些外星生物表情丰富,造型也很特别。地球像是画上去的一样,在倒影中稳稳地融了进去。

Nano Banana Pro 渲染出来的面罩高光更锐利,表面磨损清晰可见。月球尘埃和细微划痕也都有。反射效果更贴合透视。外星人物和激光更逼真地贴合面罩的弧度。地球甚至看起来更像从月球上看到的样子,比 Seedream 5.9 做出来的版本要小。

总结一下

总结一下

我觉得这俩模型在质量上差不了太多。在某些方面,Seedream 5.0 更有电影感,而 Nano Banana Pro 一直注重画面连贯、清晰、真实。

但它们只是侧重点不同。Seedream 5.0 的发布一开始就是奔着挑战来的。从这些对比结果来看,它并没有取代 Nano Banana Pro,但确实给另一种选择留出了空间。