作者|子川
来源|AI先锋官
反狙击大战正式开始,Gemini 2.0横空出世!
在昨日凌晨1点左右,谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣: 新一代原生多模态模型Gemini 2.0 Flash正式发布!
很多测评结果显示:Gemini 2.0 Flash拳打满血版o1,脚踢Claude 3.5 Sonnet,那它的实力到底如何呢?
首先我们来看一下Gemini 2.0 Flash此次交出的纸面成绩:
相较于Gemini 1.5 Pro,Gemini 2.0 Flash在多模态的图片、视频能力、编码、数学等能力上已几乎全面超越Gemini 1.5 Pro 002。
虽然此次没有和主流的模型做对比,但前几天刷屏的竞技场新王Gemini-Exp-1121正是Gemini Flash 2.0,
从榜单来看,仅次于GPT-4o(2024-11-20),性能超越了o1-preview、o1-mini模型,实力表现非常强劲。
但这些仅仅是他们的纸面数据,参考意义有限,下面我们来进行一波实测,看它是否有想象中表现的那么好。
测试一:经典模型错题
模型测试怎么能错过9.11和9.8谁大呢!还有老测试选手“Strawberry”。
从测试结果来看,比大小这关顺利通过,但在数数问题上,还是错了...
测试二:推理题
提示词:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?
先把答案透露给大家,乒乓球一直是多人运动,A、B、D都有事情在做,所以答案呼之欲出:C在打乒乓球。
在推理题上居然意外的翻车了。Gemini 2.0 Flash表示:并没有明确说明C在干什么,因此,我们无法知道C的具体活动....
看到它没有推理出来的那一刻,我觉得是不是我的提出的问题有问题,所以当即又把这两个问题丢给完整版版o1和Claude 3.5 Sonnet。
Claude 3.5 Sonnet回答错误,完整版o1回答准确,完整版o1知道乒乓球是两人运动,并推理出C正在和E打乒乓球。
测试三:编程能力
为了测试他们的编程能力,小编让Gemini 2.0 Flash做一个经典的扫雷游戏。
大概调试了三次左右,Gemini 2.0 Flash才生成一个较好的完整体扫雷游戏,不过代码输出的速度确实很快,有点Flash的感觉!
大家都知道,在AI领域,Claude的编程能力一直是处于领先地位,随即也让Claude生成一个扫雷游戏出来。
Claude没有做任何调整,直接一次性就做出一个完整版的扫雷游戏出来,这编程能力牛!
测试四:多模态功能
先给大家看一个视频(来源:海辛)。
第一次看完这个视频的唯一感受就是:太强了叭!
实时的视频交互、没有一丁点的延迟,反应速度超快。基本上,只要网络好,它立马会给你回复。
语气和口音都十分到位,没有一点AI味。感觉可以和ChatGPT的高级语音功能相媲美了。
不仅如此,Gemini 2.0 Flash的识别能力和分析能力也非常厉害。
@heyronir在X上分享了他如何让Gemini 2.0 Flash教他调酒的视频。
以及教弹钢琴。
还能共享屏幕,实时指导编程。
不仅如此,Gemini 2.0 甚至还能在实时音频、视频流输入的同时,去组合调用搜索引擎、代码解释器等工具。
不过,它有一个致命的缺点,无法打断它的输出,你只能听它说完所有的话才能进行下一轮会话。
虽说,Gemini 2.0 Flash的整体表现没有网传那么厉害,但是它的多模态功能真的太吸引人了。
而且还有一个最重要的点,此次谷歌发布的仅是Flash版,是最小的版本,Flashi版就表现出如此惊人的能力。
这让人都很难想象 Gemini 2.0 Ultra 会强到什么地步。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
热门跟贴