科技公司正在不懈地追求将人工智能整合到其产品的各个方面,从增强现有产品到推出全新的人工智能解决方案。这一领域的竞争非常激烈,领先企业竞相开发尖端模型,以确保他们在下一波技术创新中的领先地位。
谷歌发布了Gemini 2.0,这是其旗舰AI模型的新版本,旨在成为GenAI代理和助手的基础。
这家搜索巨头26年来一直致力于组织世界信息。去年年底,该公司推出了Gemini 1.0,并声称这是第一款原生多模态的模型。谷歌现在正在将其努力扩展到人工智能领域,旨在重塑信息的结构和访问方式。
谷歌首席执行官Sundar Pichai在博客中分享道:“没有任何产品比搜索更能被人工智能改变。”“我们的人工智能现在覆盖了10亿人,使他们能够提出全新类型的问题,迅速成为我们有史以来最受欢迎的搜索功能之一。”
“下一步,我们将把Gemini 2.0的高级推理能力引入AI Overviews,以解决更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。我们本周开始进行有限的测试,并将在明年初更广泛地推广。明年,我们还将继续把AI Overview引入更多的国家和语言。”
新模型的一个突出特点是Gemini 2.0 Flash,谷歌声称“在关键基准测试中优于1.5 Pro,速度是1.5 Pro的两倍”,并支持图像、文本、视频甚至多语言音频等多模态输入。它还支持多模态输出,如本地生成的图像与文本和可操纵的文本到语音(TTS)音频混合。
速度和高效的增强使Gemini更适合需要快速响应的应用程序,如人工智能代理和实时助手。
该模型还内置了对外部工具的支持,如谷歌搜索和第三方功能。这使其能够在一系列用例中收集信息、执行任务并提高效率。
谷歌称,开发人员可以通过谷歌人工智能工作室(AI Studio)和顶点人工智能(Vertex AI)测试Gemini 2.0 Flash,并计划在2025年初全面推出。2.0 Flash实验版的聊天优化版本可在PC桌面和移动网络上使用,预计很快将在Gemini移动应用程序上使用。
为了解决人们对滥用人工智能生成内容的担忧,谷歌已将其SynthID水印技术集成到Gemini 2.0 Flash产生的所有音频和视频输出中。
谷歌也在探索Gemini 2.0的代理可能性。该公司推出了一项名为“深度研究”(Deep Research)的新功能,旨在帮助用户进行详细的在线研究。该工具允许用户输入问题,然后创建可以修改或批准的研究计划。
一旦获得批准,该系统就会自动在网络上导航,在几次迭代中收集和完善相关信息。最终结果是一份简要的报告,总结了主要发现,并附有供进一步审查的源链接。
Deep Research非常适合涉及深入分析的用例,因为它减少了手动研究所花费的时间。这允许用户将注意力转移到更高级别的任务上,如批判性分析和创造性输入。
谷歌在Deep Research的一篇博客文章中指出:“今年早些时候,我们分享了在我们的产品中构建更多代理功能的愿景;Deep Research是Gemini中第一个将这一愿景变为现实的功能。”“我们建立了一个新的代理系统,利用谷歌在网络上查找相关信息的专业知识来指导Gemini的浏览和研究。”
Gemini 2.0增强了谷歌的Astra项目,这是一个视觉系统,旨在识别物体、辅助导航,甚至帮助定位放错地方的物品。随着Gemini 2.0的升级,Astra的功能得到了扩展,提供了更精确的物体识别和改进的实时辅助。
其他值得注意的升级包括新的Mariner计划,前身为Jarvis。这是一个实验性的Chrome扩展程序,允许AI代理为用户运行浏览器。Gemini 2.0也在改进Jules,一个人工智能驱动工具,旨在帮助开发人员定位和修复代码中的错误。
如果谷歌将Gemini 2.0整合到其整个生态系统中,这并不奇怪。该模型将为谷歌搜索中的AI Overviews提供支持,谷歌搜索目前拥有超过10亿用户。虽然推理成本和性能效率等问题仍然存在,但谷歌可能还必须应对新出现的威胁,例如自主代理带来的安全风险。
随着谷歌准备扩大其影响力,Gemini 2.0将产生重大影响。尽管目前还处于早期阶段,但在谷歌平台上采用它的计划表明,谷歌坚定地致力于将先进的人工智能整合到日常技术中。
热门跟贴