文章转载自「AI破局迷」。
OpenAI 发布季第六天, 5 月份预告的 语音和视觉功能 (Advanced Voice with Vision) 终于发布。
这意味着ChatGPT现在能够通过视觉和听觉与用户互动,提供实时的视觉互动体验,就像与真人视频聊天一样自在。
OpenAI第六天的发布会由首席产品官凯文·韦尔(Kevin Weil)领衔,语音和视觉技术专家杰基·香农(Jackie Shannon)、米歇尔·秦(Michelle Qin)和罗文·泽勒斯(Rowan Zellers)也参与直播活动。
01实时视频通话
在今年5月14日的春季发布会上,OpenAI首次正式介绍了GPT-4o,其中最引人注目的莫过于其原生的多模态能力。实时视频通话功能的出现,将AI与人类的互动提升到了一个新的高度。用户不仅能够与AI进行实时对话,更令人惊喜的是,AI可以理解用户的动作和环境。例如,当用户谈论桌子上的一杯红色冰美式咖啡时,AI能够记住这个细节,并在稍后的问题中准确回答。
这种实时理解视觉的能力,对于AI来说无疑是一种前所未有的突破。OpenAI进行了场景演示,让ChatGPT与在场人员互动,甚至能精准地记忆名字和细节。想象一下,AI不仅是你的声音助手,还是能够“看”到并理解你周围环境的智能伙伴。这种能力在教育、工作和社交等领域都有广泛的应用潜力。
OpenAI 还透露,这项新功能将在一周内对Pro和Plus用户开放。
02实时理解屏幕
与实时视频通话相辅相成的另一个功能是实时理解屏幕。这个功能通过屏幕共享的方式,让AI能够查看用户的电脑屏幕,提供即时建议和反馈。这种实时辅助将大大提升工作效率,尤其在需要灵活处理复杂任务时,功能尤为显著。
想象一下,当你在撰写PPT感到卡壳时,可以直接询问AI:“这页的视觉排版逻辑是不是有点问题?”AI将根据实时观察给出优化建议,甚至能够快速调整设计。
在编写代码或处理Excel表格时,AI也能够实时给出错误提示和逻辑建议。这种互动不仅能提高工作效率,还能快速提升用户的技能水平。更进一步,如果这个功能能与Computer Use的Agent结合,那么AI将能直接代替用户执行任务,实现真正的高效协作。
03圣诞老人限定语音
第三个新功能是“圣诞老人限定语音”,这是在高级语音模式中新增的一个音色,带有浓厚的节日气氛。不过,作为一个比较抽象的更新,用户可以在对话中体验到不同的语音输出,让人感受到节日的欢乐氛围。
Santa。其实就是个,圣诞老人的语音。
用户只需点击界面上的雪花图标,即可轻松激活。无论用户身在何处,只要能够使用ChatGPT的语音模式,就能体验到圣诞老人的声音。而且,当用户首次与圣诞老人对话时,可以尽情与圣诞老人畅谈,不受使用限制的影响。
从今日起,最新的移动应用将逐步向所有Team用户及大部分Pro和Plus订阅者推出高级语音视觉功能。对于欧洲的Pro和Plus用户,OpenAI将尽快提供这项服务。至于企业用户和教育用户,他们将在明年年初获得访问权限。
过往发布会回顾:
转载原创文章请添加微信:founderparker
热门跟贴