实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

AI先锋官

2024-12-13 16:17 ·北京

作者｜子川

来源｜AI先锋官

反狙击大战正式开始，Gemini 2.0横空出世！

在昨日凌晨1点左右，谷歌CEO劈柴、DeepMind CEO哈萨比斯、DeepMind CTO Kavukcuoglu三位大佬联手官宣：新一代原生多模态模型Gemini 2.0 Flash正式发布！

很多测评结果显示：Gemini 2.0 Flash拳打满血版o1，脚踢Claude 3.5 Sonnet，那它的实力到底如何呢？

首先我们来看一下Gemini 2.0 Flash此次交出的纸面成绩：

相较于Gemini 1.5 Pro，Gemini 2.0 Flash在多模态的图片、视频能力、编码、数学等能力上已几乎全面超越Gemini 1.5 Pro 002。

虽然此次没有和主流的模型做对比，但前几天刷屏的竞技场新王Gemini-Exp-1121正是Gemini Flash 2.0，

从榜单来看，仅次于GPT-4o（2024-11-20），性能超越了o1-preview、o1-mini模型，实力表现非常强劲。

但这些仅仅是他们的纸面数据，参考意义有限，下面我们来进行一波实测，看它是否有想象中表现的那么好。

测试一：经典模型错题

模型测试怎么能错过9.11和9.8谁大呢！还有老测试选手“Strawberry”。

从测试结果来看，比大小这关顺利通过，但在数数问题上，还是错了...

测试二：推理题

提示词：房子里有五个人，A、B、C、D和E，A正在和B看电视，D在睡觉，E在打乒乓球，请问C在做什么？

先把答案透露给大家，乒乓球一直是多人运动，A、B、D都有事情在做，所以答案呼之欲出：C在打乒乓球。

在推理题上居然意外的翻车了。Gemini 2.0 Flash表示：并没有明确说明C在干什么，因此，我们无法知道C的具体活动....

看到它没有推理出来的那一刻，我觉得是不是我的提出的问题有问题，所以当即又把这两个问题丢给完整版版o1和Claude 3.5 Sonnet。

Claude 3.5 Sonnet回答错误，完整版o1回答准确，完整版o1知道乒乓球是两人运动，并推理出C正在和E打乒乓球。

测试三：编程能力

为了测试他们的编程能力，小编让Gemini 2.0 Flash做一个经典的扫雷游戏。

大概调试了三次左右，Gemini 2.0 Flash才生成一个较好的完整体扫雷游戏，不过代码输出的速度确实很快，有点Flash的感觉！

大家都知道，在AI领域，Claude的编程能力一直是处于领先地位，随即也让Claude生成一个扫雷游戏出来。

Claude没有做任何调整，直接一次性就做出一个完整版的扫雷游戏出来，这编程能力牛！

测试四：多模态功能

先给大家看一个视频（来源：海辛）。

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

第一次看完这个视频的唯一感受就是：太强了叭！

实时的视频交互、没有一丁点的延迟，反应速度超快。基本上，只要网络好，它立马会给你回复。

语气和口音都十分到位，没有一点AI味。感觉可以和ChatGPT的高级语音功能相媲美了。

不仅如此，Gemini 2.0 Flash的识别能力和分析能力也非常厉害。

@heyronir在X上分享了他如何让Gemini 2.0 Flash教他调酒的视频。

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

以及教弹钢琴。

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

还能共享屏幕，实时指导编程。

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

不仅如此，Gemini 2.0 甚至还能在实时音频、视频流输入的同时，去组合调用搜索引擎、代码解释器等工具。

不过，它有一个致命的缺点，无法打断它的输出，你只能听它说完所有的话才能进行下一轮会话。

虽说，Gemini 2.0 Flash的整体表现没有网传那么厉害，但是它的多模态功能真的太吸引人了。

而且还有一个最重要的点，此次谷歌发布的仅是Flash版，是最小的版本，Flashi版就表现出如此惊人的能力。

这让人都很难想象 Gemini 2.0 Ultra 会强到什么地步。

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴