日前,谷歌方面宣布旗下Gemini AI可支持更多类型的文件,可通过分析、摘录、洞察文档内容,为用户提供更优质的AI服务。据官方透露,目前已拥有Gemini Business、Enterprise、Education或Education Premium许可证的Workspace用户,即可从谷歌Drive或本地设备上传各种文件到Gemini实现相关功能。

打开网易新闻 查看精彩图片

据了解,在此次升级后,Gemini可支持电子表格、演示文稿、图像、音频、视频文件。具体而言,用户可通过将CSV、XLSX、ODS等格式的电子表格上传到Gemini,使得财务模型、销售报告等数据密集型文档的分析变得更轻松和高效。同时通过Gemini对这些数据的深度分析,也可以让用户能够更好地识别趋势、生成洞察,并优化决策过程。

打开网易新闻 查看精彩图片

文稿方面,用户上传PPTX、PDF和KEY等格式的演示文稿后,Gemini可对提取出其中的要点、总结内容,并识别图表和图像等视觉元素。图像方面,Gemini可分析JPEG、PNG和GIF等格式图像,提取出文本、识别对象,还能为视觉内容提供上下文。

打开网易新闻 查看精彩图片

而在音频方面,Gemini可识别MP3、WAV和FLAC等多种格式,并转录语音、识别发言人,从而总结访谈、播客和讲座中的要点。同时Gemini还可处理MP4、MOV和AVI等不同格式的视频文件,以及从演示文稿、纪录片和培训视频中提取脚本、识别场景,及总结关键点。

除此之外,Gemini还可根据用户输入的提示词,对所上传的文件进行针对性分析,同时还可提供改进写作和文档组织的建议,从而帮助用户提高理解、研究和写作能力。

此前在2023年12月,谷歌方面便推出了大模型Gemini 1.0。当时该模型的上下文窗口为32k,是基于谷歌自家TPUs v4和v5e进行的大规模训练,同时也是全球第一款原生多模态大模型。

【本文图片来自网络】