作者|子川

来源|AI先锋官

反狙击大战正式开始,Gemini 2.0横空出世!

在昨日凌晨1点左右,谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣: 新一代原生多模态模型Gemini 2.0 Flash正式发布!

很多测评结果显示:Gemini 2.0 Flash拳打满血版o1,脚踢Claude 3.5 Sonnet,那它的实力到底如何呢?

首先我们来看一下Gemini 2.0 Flash此次交出的纸面成绩:

打开网易新闻 查看精彩图片

相较于Gemini 1.5 Pro,Gemini 2.0 Flash在多模态的图片、视频能力、编码、数学等能力上已几乎全面超越Gemini 1.5 Pro 002。

虽然此次没有和主流的模型做对比,但前几天刷屏的竞技场新王Gemini-Exp-1121正是Gemini Flash 2.0,

打开网易新闻 查看精彩图片

从榜单来看,仅次于GPT-4o(2024-11-20),性能超越了o1-preview、o1-mini模型,实力表现非常强劲。

但这些仅仅是他们的纸面数据,参考意义有限,下面我们来进行一波实测,看它是否有想象中表现的那么好。

测试一:经典模型错题

模型测试怎么能错过9.11和9.8谁大呢!还有老测试选手“Strawberry”。

打开网易新闻 查看精彩图片

从测试结果来看,比大小这关顺利通过,但在数数问题上,还是错了...

测试二:推理题

提示词:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?

先把答案透露给大家,乒乓球一直是多人运动,A、B、D都有事情在做,所以答案呼之欲出:C在打乒乓球

打开网易新闻 查看精彩图片

推理题上居然意外的翻车了。Gemini 2.0 Flash表示:并没有明确说明C在干什么,因此,我们无法知道C的具体活动....

看到它没有推理出来的那一刻,我觉得是不是我的提出的问题有问题,所以当即又把这两个问题丢给完整版版o1和Claude 3.5 Sonnet。

打开网易新闻 查看精彩图片

Claude 3.5 Sonnet回答错误,完整版o1回答准确,完整版o1知道乒乓球是两人运动,并推理出C正在和E打乒乓球。

测试三:编程能力

为了测试他们的编程能力,小编让Gemini 2.0 Flash做一个经典的扫雷游戏。

大概调试了三次左右,Gemini 2.0 Flash才生成一个较好的完整体扫雷游戏,不过代码输出的速度确实很快,有点Flash的感觉!

打开网易新闻 查看精彩图片

大家都知道,在AI领域,Claude的编程能力一直是处于领先地位,随即也让Claude生成一个扫雷游戏出来。

打开网易新闻 查看精彩图片

Claude没有做任何调整,直接一次性就做出一个完整版的扫雷游戏出来,这编程能力牛!

测试四:多模态功能

先给大家看一个视频(来源:海辛)。

 实测谷歌Gemini 2.0:数数、推理翻车,多模态惊艳,编程输Claude
打开网易新闻 查看更多视频
实测谷歌Gemini 2.0:数数、推理翻车,多模态惊艳,编程输Claude

第一次看完这个视频的唯一感受就是:太强了叭!

实时的视频交互、没有一丁点的延迟,反应速度超快。基本上,只要网络好,它立马会给你回复。

语气和口音都十分到位,没有一点AI味。感觉可以和ChatGPT的高级语音功能相媲美了。

不仅如此,Gemini 2.0 Flash的识别能力和分析能力也非常厉害

@heyronir在X上分享了他如何让Gemini 2.0 Flash教他调酒的视频。

 实测谷歌Gemini 2.0:数数、推理翻车,多模态惊艳,编程输Claude
打开网易新闻 查看更多视频
实测谷歌Gemini 2.0:数数、推理翻车,多模态惊艳,编程输Claude

以及教弹钢琴。

 实测谷歌Gemini 2.0:数数、推理翻车,多模态惊艳,编程输Claude
打开网易新闻 查看更多视频
实测谷歌Gemini 2.0:数数、推理翻车,多模态惊艳,编程输Claude

还能共享屏幕,实时指导编程。

 实测谷歌Gemini 2.0:数数、推理翻车,多模态惊艳,编程输Claude
打开网易新闻 查看更多视频
实测谷歌Gemini 2.0:数数、推理翻车,多模态惊艳,编程输Claude

不仅如此,Gemini 2.0 甚至还能在实时音频、视频流输入的同时,去组合调用搜索引擎、代码解释器等工具。

不过,它有一个致命的缺点,无法打断它的输出,你只能听它说完所有的话才能进行下一轮会话。

虽说,Gemini 2.0 Flash的整体表现没有网传那么厉害,但是它的多模态功能真的太吸引人了。

而且还有一个最重要的点,此次谷歌发布的仅是Flash版,是最小的版本,Flashi版就表现出如此惊人的能力。

这让人都很难想象 Gemini 2.0 Ultra 会强到什么地步。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾