上方蓝字关注我们

打开网易新闻 查看精彩图片

Google I/O 2024年大会亮点包括:AI在主题演讲中被提及121次;推出LearnLM AI模型助力学习;YouTube新增AI测验;Gemma 2模型将升级至270亿参数;Google Play引入新发现功能;Android将内置通话诈骗检测;Google Photos将通过AI增强搜索;Gmail集成Gemini AI技术;Gemini Live提供深度语音聊天;Chrome内置Gemini Nano;Android集成Gemini AI;Google Maps引入Gemini模型;TPU性能提升;搜索功能增强AI;Imagen 3模型升级;Project IDX开发环境公测;Veo AI模型生成视频;Circle to Search功能增强。

这是你一年中翘首以待的时刻:Google I/O 主题演讲日!Google 每年都会以一系列快速的公告来开启其开发者大会,包括许多它最近一直在研究的新事物的揭幕。

由于你可能没有时间观看今天整整两小时的演讲,我们为你总结了主题演讲中宣布的最重要新闻,以易于消化、易于浏览的列表形式呈现。

AI 无处不在

周二的 Google I/O 持续了 110 分钟,但 Google 在期间(根据它自己的统计)提到了 AI 惊人的 121 次。首席执行官 Sundar Pichai 在结束演讲时提到了这个数字,并幽默地表示公司为我们做了“辛苦的工作”来计数。再次强调,这并不令人惊讶,我们已经准备好了。

为学习而生的生成式 AI

打开网易新闻 查看精彩图片

同一天,Google 还推出了 LearnLM,这是一系列为学习“微调”的新型生成式 AI 模型。这是 Google 的 DeepMind AI 研究部门和 Google Research 之间的合作。Google 表示,LearnLM 模型旨在“会话式”地辅导学生学习各种科目。

尽管它已经在 Google 的几个平台上可用,但公司正在通过 Google Classroom 的试点项目对 LearnLM 进行测试。它还在与教育工作者合作,看看 LearnLM 如何简化和改进课程规划过程。Google 表示,LearnLM 可以帮助教师发现新的想法、内容和活动,或者找到适合特定学生群体需求的材料。

测验大师

打开网易新闻 查看精彩图片

谈到教育,YouTube 新增了 AI 生成的测验。这种新的会话式 AI 工具允许用户在观看教育视频时可以象征性地“举手”。观众可以提出澄清问题,获得有用的解释或参加有关主题的测验。

对于那些不得不观看更长的教育视频的人来说,这将是一种解脱,例如由于 Gemini 模型的长上下文能力而必须观看的讲座或研讨会。这些新功能将向美国的部分 Android 用户推出。

Gemma 2 更新

打开网易新闻 查看精彩图片

图片来源:Google

Google 从开发者那里听到的最受欢迎的请求之一是更大的 Gemma 模型,因此 Google 将向 Gemma 2 添加一个新的 270 亿参数模型。Google 的 Gemma 模型的下一代将于 6 月推出。Google 表示,这种大小经过 Nvidia 优化,可以在下一代 GPU 上运行,并且可以在单个 TPU 主机和Vertex AI 上高效运行。

Google Play

打开网易新闻 查看精彩图片

Google Play 正在获得一些关注,包括新的应用发现功能、新的用户获取方式、Play Points 的更新以及其他对开发者友好的工具的增强,如 Google Play SDK 控制台和 Play Integrity API 等。

特别引起开发者兴趣的是所谓的 Engage SDK,它将为应用制造商介绍一种方式,以全屏、沉浸式体验向用户展示他们的内容,这种体验针对个别用户个性化。Google 表示,目前用户还无法看到这个界面。

在通话中检测诈骗

打开网易新闻 查看精彩图片

图片来源:Google

周二,Google 预览了一个它认为会在通话期间提醒用户潜在诈骗的功能。

该功能将内置于 Android 的未来版本中,利用 Gemini Nano,这是 Google 生成式 AI 提供的最小版本,可以完全在设备上运行。系统有效地实时监听“通常与诈骗相关的对话模式”。

Google 给出了一个例子,比如有人假装是“银行代表”。常见的诈骗者策略,如密码请求和礼品卡,也会触发该系统。这些都是众所周知的从你那里提取钱财的方式,但世界上仍有很多人对这类骗局毫无防备。一旦触发,它将弹出一个通知,告知用户可能正在成为不受欢迎角色的受害者。

Ask Photos询问照片

打开网易新闻 查看精彩图片

Google Photos 正在获得 AI 注入,推出了一个名为 Ask Photos 的实验性功能,由 Google 的 Gemini AI 模型提供支持。这个新增加的功能将于今年夏天晚些时候推出,将允许用户使用利用 AI 对其照片内容和其他元数据理解的自然语言查询,在他们的 Google Photos 收藏中进行搜索。

虽然以前用户可以搜索照片中的特定人物、地点或事物,但得益于自然语言处理,AI 升级将使找到正确内容的过程更加直观,减少手动搜索过程。

关于 Gemini

打开网易新闻 查看精彩图片

Gemini in Gmail

Gmail 用户将能够使用其 Gemini AI 技术搜索、总结和起草电子邮件。它还能够对电子邮件采取行动,以完成更复杂的任务,比如通过搜索你的收件箱、找到收据并填写在线表格来帮助你处理电子商务退货。

打开网易新闻 查看精彩图片

Gemini 1.5 Flash

谷歌在其阵容中引入了一种新的 AI 模型:Gemini 1.5 Flash。新的多模态模型与Gemini 1.5 Pro一样强大,但它针对“狭窄,高频,低延迟的任务”进行了优化。这使得它能够更好地产生快速响应。谷歌还对 Gemini 1.5 进行了一些更改,据称这将提高其翻译、推理和编码的能力。

Gemini 1.5 Pro

生成式 AI 的另一个升级是 Gemini 现在可以比以前分析更长的文档、代码库、视频和音频录音。

在 Gemini 1.5 Pro 的一个新版本的私人预览中,该公司的当前旗舰模型,它被揭示可以接收多达 200 万个Token。这是以前最大数量的两倍。有了这个水平,Gemini 1.5 Pro 的新版本支持任何商业可用模型的最大输入量。

Gemini Live

公司预览了 Gemini 中的一个新体验,称为 Gemini Live,它允许用户在他们的智能手机上与 Gemini 进行“深入”的语音聊天。用户可以在聊天机器人讲话时打断 Gemini 以提出澄清问题,它将实时适应他们的语音模式。而且 Gemini 可以通过用户智能手机摄像头捕获的照片或视频看到并响应用户的周围环境。

乍一看,Live 似乎并不比现有技术有太大的升级。但 Google 声称它利用了生成式 AI 领域的新技术来提供更优越、错误更少的图像分析——并将这些技术与增强的语音引擎相结合,以实现更一致、情感表达更丰富和更逼真的多轮对话。

谷歌浏览器正在获得一个人工智能助手

现在是一个小型公告。Google 正在构建 Gemini Nano,这是其 AI 模型中最小的一个,直接内置于 Chrome 桌面客户端,从 Chrome 126 开始。该公司表示,这将使开发者能够使用设备上的模型来驱动他们自己的 AI 功能。Google 计划使用这个新能力来驱动像 Workspace Lab 在 Gmail 中的现有“帮我写”工具等功能。

内置助手将使用设备上的 AI 帮助您直接在 Google Chrome 中为社交媒体帖子、产品评论等生成文本。

打开网易新闻 查看精彩图片

Android 设备即将获得更智能的 AI

Google 的 Gemini on Android,其 AI 替代 Google Assistant,将很快利用其与 Android 移动操作系统和 Google 应用深度集成的能力。用户将能够直接将 AI 生成的图像拖放到他们的 Gmail、Google Messages 等应用中。同时,YouTube 用户将能够点击“问这个视频”以从该 YouTube 视频中找到特定信息,Google 表示。

打开网易新闻 查看精彩图片

谷歌表示,Gemini 很快将能够让用户在屏幕上询问有关视频的问题,并且它将根据自动字幕回答。对于付费的 Gemini Advanced 用户,它还可以摄取 PDF 并提供信息。这些以及 Android 上 Gemini 的其他多模式更新将在未来几个月内推出。

Google Maps AI 高光

Gemini 模型功能即将来到 Google Maps 平台为开发者提供,从 Places API 开始。开发者可以在他们自己的应用和网站上展示基于Gemini 分析的地点和区域的生成式 AI 摘要。这些摘要是基于 Gemini 对 Google Maps 超过 3 亿贡献者社区的洞察力分析而创建的。更好的是?开发者将不再需要编写他们自己的地点自定义描述。

张量处理单元获得性能提升

Google 推出了其下一代——确切地说是第六代——的张量处理单元 (TPU) AI 芯片。被称为 Trillium,它们将在今年晚些时候推出。如果你还记得,宣布下一代 TPU 在 I/O 上有点传统,即使芯片直到年底才推出。

这些新的 TPU 将比第五代在每芯片的计算性能上提供 4.7 倍的性能提升。也许更重要的是,Trillium 功能第三代 SparseCore,Google 将其描述为“用于处理超大型嵌入的专用加速器,这在高级排名和推荐工作负载中很常见。”

AI 在搜索中

打开网易新闻 查看精彩图片

Google 正在向其搜索中添加更多 AI,消除了公司正在失去市场份额给像 ChatGPT 和 Perplexity 这样的竞争对手的疑虑。它正在向美国的用户推出 AI 驱动的概述。此外,公司还计划使用 Gemini 作为旅行规划等事物的代理。

Google 计划使用生成式 AI 为某些搜索结果组织整个搜索结果页面。这是除了现有的 AI 概述功能之外的,该功能创建了一个关于你搜索主题的简短片段和聚合信息。AI 概述功能在周二普遍可用,此前在 Google 的 AI Labs 程序中进行了试用。

生成式 AI 升级

打开网易新闻 查看精彩图片

图片来源:Google

Google 宣布了 Imagen 3,这是科技巨头 Imagen 生成式 AI 模型家族中的最新成员。

DeepMind,Google 的 AI 研究部门的首席执行官 Demis Hassabis 表示,与前身 Imagen 2 相比,Imagen 3 更准确地理解它转换为图像的文本提示,并且在其生成中更“有创意和详细”。此外,该模型产生的“分散注意力的工件”和错误更少,他说。

“这[也]是我们渲染文本的最佳模型,这对图像生成模型来说一直是一个挑战,”Hassabis 补充说。

Project IDX

Project IDX,该公司的下一代、以 AI 为中心的基于浏览器的开发环境,现在处于公开测试阶段。随着这次更新,它与 Google Maps Platform 集成到 IDE 中,帮助为其应用添加地理位置特性,以及与 Chrome Dev Tools 和 Lighthouse 的集成,以帮助调试应用程序。不久,Google 还将启用将应用程序部署到 Cloud Run,这是 Google Cloud 的无服务器平台,用于运行前端和后端服务。

Project Astra

谷歌的Project Astra是一款多模态人工智能助手,该公司希望它能成为一个无所不能的虚拟助手,可以观察和理解它通过设备的摄像头看到的东西,记住你的东西在哪里,并为你做事。它为今年 I/O 中许多最令人印象深刻的演示提供了动力,该公司的目标是成为一个诚实至善的 AI 代理,不仅可以与您交谈,还可以代表您做事。

Veo 为创作者带来 Sora 风格的视频生成

打开网易新闻 查看精彩图片

Google 正在用 Veo 瞄准 OpenAI 的 Sora,Veo 是一个 AI 模型,可以在给定文本提示的情况下创建大约一分钟左右的 1080p 视频剪辑。Veo 可以捕捉不同的视觉和电影风格,包括风景镜头和时间流逝,并对已经生成的视频进行编辑和调整。

它还建立在 Google 在视频生成方面的初步商业工作之上,该工作在 4 月份进行了预览,利用了该公司的 Imagen 2 系列图像生成模型来创建循环视频剪辑。

Circle to Search

打开网易新闻 查看精彩图片

图片来源:Google

AI 驱动的 Circle to Search 功能,允许 Android 用户使用手势(如圈选)获得即时答案,现在将能够解决更复杂的物理和数学问题。它旨在通过采取一些行动——如圈选、突出显示、涂鸦或轻敲——使从手机的任何地方与 Google 搜索互动变得更加自然。哦,它还更适合在支持的 Android 手机和平板电脑上直接帮助孩子们做作业。

Pixel 8a

打开网易新闻 查看精彩图片

图片来源:Google

Google 等不及 I/O 就展示了 Pixel 系列的最新成员,并在上周宣布了新的 Pixel 8a。该手机起价为 499 美元,并于周二发货。更新也是我们从这些刷新中期待的。清单上的第一项是增加了 Tensor G3 芯片。

已有超过2000名

读者加入交流群

我们还在等你

点这里关注我,记得标星哦~

CLICK TO SEE YOU LOOK THE BEST