巨龙苏醒，谷歌刚刚发布的大模型工具要反击OpenAI？|deepmind|openai|埃隆_马斯克|大模型|巨龙|微软|模型工具|苏醒|谷歌

从去年底 ChatGPT 席卷全球开始，关于谷歌的「失落」就一再被提起。

明明最早提出了 transfomer 模型，明明还是全球市值、利润最高的几家科技公司之一，结果却在大模型和生成式 AI 上败给了一家成立于 2015 年的「小公司」——OpenAI。

即使在发布 PaLM2 大模型和聊天机器人 Bard 之后，谷歌依然没能超越 OpenAI，无论是从用户体验，还是月访问次数上。

但在生成式 AI 这场世纪大战中，最终会是屠龙勇士彻底战胜巨龙？还是巨龙反杀屠龙勇士？谷歌当然希望看到后者。

谷歌「大杀器」，终于来了

美西时间 12 月 6 日，谷歌正式发布了预告已久的 AI 大模型—— Gemini（1.0）。谷歌表示，Gemini 是旗下迄今为止最强大、最通用的模型，在 32 个广泛使用的基准测试中，有 30 个都超越了 GPT-4，展现出了最先进的性能和结果。

图/谷歌

在需要结合数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题能力的 MMLU（大规模多任务语言理解）上，Gemini Ultra 的得分高达 90.0%，是第一个超越人类专家的模型。

但这是 Gemini Ultra。

Gemini 大模型按照参数规模分为三个版本，分别是最强大的 Gemini Ultra，兼具灵活性和强大的 Gemini Pro，以及能够在移动设备上本地运行的 Gemini Nano。

图/谷歌

事实上，目前用户可以使用的 Gemini 大模型只有 Gemini Pro，实际对标的 GPT-3.5。按照谷歌的说法，配备 Gemini Ultra 的 Bard Advanced 还要等到明年初才推出，而 Gemini Nano 将于本月稍晚时候率先登陆 Pixel 8 Pro，首批更新将支持自带录音 App 与 Gboard 输入法。

不算意外，就在一周前，The Information 爆料称，谷歌原计划在今年底推出的 Gemini 将推迟到 2024 年初发布，原因在非英文查询下存在一些问题，促使谷歌 CEO 桑达尔·皮查伊（Sundar Pichai）做出了该决定。

如今来看，显然是 Gemini Ultra 还存在一些问题，但谷歌经过考虑后还是选择了如期发布 Gemini，只是最强大的 Gemini Ultra 还是要推迟到明年初。

不过即便如此，仅仅根据目前放出的官方上手视频和介绍，Gemini Ultra 已经成为了整个行业的热议焦点，也被视为 OpenAI GPT-4 最强大的对手，这当然不是没有理由的。

谷歌 Gemini，OpenAI 最大的威胁

今年早些时候 OpenAI 发布了 GPT-4，其中最惊艳之处在于对于图片的识别和理解，包括准确解读图片中的「梗」以及直接按图写产品（代码）。

Gemini Ultra 还要更进一步。

在上手视频中，谷歌展示 Gemini Ultra 如何通过摄像头实时理解现实画面信息，并根据现实画面的变化给出新的理解，当然也可以再根据对话给出回答或者结果，比如基于一张纸质世界地图给出了一种游戏玩法。在游戏过程中，Gemini Ultra 甚至可以实时判断用户的行为和结果，与之进行互动。

展示的背后，是 Gemini 对文本、图像、视频、音频的「原生多模态（natively multimodal）」支持。

图/谷歌

不同于 OpenAI 以及其他大模型厂商将不同模态训练模型拼接整合在一起，创建出一个多模态大模型，借此形成对文本、视觉、音频的支持，虽然有些时候还是可以执行某些任务（比如描述图像），但在面对更具概念性和复杂推理的情况下，由于「转录」过程中的信息丢失问题，容易出现表现不佳的结果。

而谷歌强调的「原生多模态」，是指 Gemini 从一开始就对不同模态进行了预训练，研究人员又用额外的多模态数据对其进行微调，进一步提升模型的有效性，实现对各种模态输入内容的「无缝」理解和推理。按照谷歌的说法是：

「这样的训练方法，有助于 Gemini 从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。」

另一方面，端侧大模型也是时下从芯片侧到计算终端侧厂商关注的重点，虽然很多手机厂商都宣称了自主训练的端侧大模型，但还没有一家真正实装端侧大模型，基本还是通过云端大模型从语音助手切入。

图/谷歌

眼下来看，Pixel 8 Pro 上的 Gemini Nano，极有可能最先踏出这一步。不仅如此，Gemini Nano 能力是内置在 Android 系统中，未来不只是 Pixel，开发者可以通过 AICore API 直接调用其他 Android 手机的 Gemini AI 能力（在硬件算力上有要求）。

至于 Gemini Pro，用户现在就能在谷歌 Bard 中实际体验到。

实测 Gemini Pro：比 GPT-3.5 稍好，远胜文心大模型4.0

为了对比 Gemini Pro（Bard）的水平，我们进行对比的 GPT-3.5（ChatGPT）以及文心大模型 4.0（百度文心一言）

需要指出的是，目前 Gemini Pro（Bard）仅支持 170 多个国家的英文版本，之后会扩展到更多语言和地区，所以在 Bard 和 ChatGPT 上统一使用英文对话，文心一言由于英文表现较差，使用中文进行对话。

整体来说，升级 Gemini Pro 之后的 Bard 表现出不俗的知识和推理能力，比如询问姚明加盟 NBA 那年亚军队的教练是谁？

中文为网页对照翻译，仅供参考（下同），图/ Bard

在回答中，Bard 不仅准确知道姚明是在 2002 年加入 NBA，还展示了正确的推导过程，并找到了当年 NBA 亚军球队主教练是新泽西篮网（后改名为布鲁克林篮网）的拜伦·斯科特（Byron Scott）。

图/ ChatGPT

ChatGPT 也回答出了正确答案——拜伦·斯科特，不同的是，ChatGPT 锁定的是 2002-2003 赛季（决赛在 2003 年）。

图/文心一言

文心一言同样知道需要找到 2002 年 NBA 亚军队的教练，但在亚军队上给出了错误答案（纽约尼克斯），甚至连纽约尼克斯时任主教练也是错的。

Bard 在图片理解和解读上也有不错的表现，基于一张 Realme GT5 Pro 前段时间的宣传海报，已经能够比较全面地解读出海报传达的信息。

上传图片，图/ Realme

Bard 的解读，图/ Bard

基于 GPT-3.5 的 ChatGPT 并不支持图片，而基于文心大模型 4.0 的文心一言就出现了前文提到的「多模态『转录』过程中的信息丢失」，把 GPT5 Pro「看成」了 GPs Pro。此外，文心一言在表达上也比较「含糊」，不像 Bard 能够传达出比较清晰的信息。

基于同一张图的解读，图/文心一言

受限于时间，目前我们只是进行了部分的测试对比，并不能完整评判三家大模型的表现，如果大家想要看到更深度的对比评测，欢迎在评论区反馈告诉我们，后续会有相关规划。

不过先回到 Gemini Pro 的加持下的 Bard，从初步上手体验来看，不仅表现出了对图片和语音的全面支持，而且部分文本生成回答的质量甚至比 ChatGPT 还略高一筹。等到后续支持中文，在一众免费（文心大模型 4.0 是收费的）对话机器人中，很大可能会成为 ChatGPT（GPT-3.5）的上位替代。

至于未来支持 Gemini Ultra 的 Bard Advanced，预计将会与基于 GPT-4 的 ChatGPT 一样，采用收费模式，至于两者的表现会有什么区别，就需要我们拭目以待了。

或许有些「不公平」，但谷歌想要超越 OpenAI 继续领导生成式 AI 革命，意味着 Gemini 不能只是超越 GPT-4，否则不管企业客户还是普通用户为什么要从 GPT-4 迁移到 Gemini。

就在宣告 Gemini 发布的新闻稿中，谷歌 DeepMind CEO Demis Hassabis 指出，Gemini 是谷歌目前规模最大，性能最强的大模型，「可以像我们一样，理解我们周围的世界。」

Demis Hassabis，当时他们开发出了 AlphaGo，图/谷歌

这可能才是谷歌 Gemini 与 GPT-4 最核心的区别所在。

不同于今年上半年对于 AGI（通用人工智能）未来的两极分化看法，很多人坚持认为 AGI 永远不会实现。下半年以来，具身智能以及 AGI 再度成为了新的热点，谷歌、微软、马斯克、李飞飞团队以及 OpenAI 等公司都在继续推进具身智能和 AGI 的探索。

甚至据路透社报道，OpenAI CEO Sam Altman 此前被赶下台的导火索，就是 AGI 探索项目（代号 Q）突破带来的威胁。

但无论是具身智能还是 AGI，就要求 AI 首先能够通过听觉、视觉以及文字理解我们周围的世界，就像 Gemini Ultra 展现出的能力，或是 OpenAI 对正在开发的 GPT-5 提出的规划。从这个角度来看，留给谷歌证明 Gemini 大模型优越性的时间，也不多了。

题图来自谷歌