人工智能产业创新研究中心

作者:殷长明、徐杨岚、郑翔凌

打开网易新闻 查看精彩图片

5月14日,美国开放人工智能研究中心OpenAI对外发布新一代旗舰生成模型GPT-4o,“o”代表“omni”,意为“全能的”。GPT-4o最大的亮点在于AI表达有了“情感”,能够真正使人类和计算机自然地交流,将人机交互体验推进到前所未有的高度。这标志着生成式AI技术的又一次重大进步,为各种应用领域将带来颠覆性的革新与挑战。

一、GPT-4o开启人机交互新时代

一是全面提升多模态交互能力。GPT-4o作为OpenAI最新推出的重磅产品,是在大模型竞技场进行A/B测试并拔得头筹的im-also-a-good-gpt2-chatbot模型的完善版本。GPT-4o能够实现对文本、语音、图像乃至视频等多种模态信息的高效处理与理解。用户不再需要通过特定格式的语言或媒介与机器沟通,无论是口头指令、文字输入,还是手势识别、视觉信号,GPT-4o都能实时准确捕捉并作出带有情绪化的响应,仿佛从冰冷的“机器”蜕变为充满真情实感的“伙伴”。作为端到端训练的新模型,所有语音、文本、图像乃至视频的输入和输出都凝结在同一神经网络,GPT-4o重新向外界定义了什么是真正的“多模态”模型。

二是重塑未来人机交互模式。GPT-4o的推出,标志着人机交互体验迈入新阶段。传统AI系统的反馈往往显得机械且缺乏情感色彩,GPT-4o摒弃传统TTS(Text-to-Speech)机制及其可能带来的反应时延,最快可以在232毫秒的时间内响应音频输入,平均响应时长为320毫秒,达到与人类响应速度相似的水平。同时,情绪不再仅是人与人之间的专属交流通道,基于GPT-4o底层模型的层层剖析,也能实现情绪的具象化传递与精妙的情感互动反馈。GPT-4o能够通过人脸表情和姿态来推断情绪,通过视觉识别来回答关于所观察场景的问题,能够感知房间内的光线变化并描述其特点等。GPT-4o凭借强大的洞察与感知能力,为交互体验增添了前所未有的深度与温度。

三是加速扩展多领域应用场景。GPT-4o的颠覆式创新,不仅限于技术层面的优化,还将为各行各业开启无限可能。在心理健康领域,利用技术手段观察患者的表情和情绪变化,以实现更加个性化和及时的情感支持及医疗反馈;在实时视觉助手领域,GPT-4o能够实时读取和解析视觉画面,使得它能够作为AI导盲犬帮助视障人士,或者作为AI教练提供实时反馈。此外,在教育、医疗、娱乐等多个领域,GPT-4o也能通过精准的数据分析、决策支持、情绪感知等,推动行业的智能化转型和效率提升。正如OpenAI创始人萨姆・奥特曼所言:“我们创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,我们所有人都会从中受益。”

二、GPT-4o给国内AI企业带来巨大挑战和威胁

一是技术标杆压力跃升。GPT-4o的推出彰显了OpenAI在AI技术上的快速迭代能力,对国内AI企业构成显著的技术代差压力。GPT-4o在多模态交互、实时推理和语音对话流畅性方面的重大突破,为国内AI企业设定了全新的技术高点。例如,GPT-4o能够在极短的延迟内响应音频输入,提供与人类相似的交互体验;GPT-4o能够通过视频甚至音频识别通话者的情绪状态,并据此调整交流方式;在对话中用户可随时打断GPT-4o,模型能够即时反应并无缝地继续对话,极大地增强交互的自然性和实时性。

二是重塑合作与竞争格局。GPT-4o未来将与苹果、微软等公司的操作系统深度绑定,甚至可能替代传统助手,如Siri,这将使国内AI企业面临合作与竞争环境的双重变化。一方面,深度绑定操作系统可以使模型能够无缝集成到操作系统中,提供更流畅和一致的用户体验。另一方面,苹果和微软公司的操作系统拥有庞大的用户基础,与操作系统的深度绑定将使GPT-4o能够触及到更多用户,迅速扩大其影响力和市场覆盖范围。由此将给国内手机企业及AI企业带来巨大生存压力。

三是成本与性价比的大挑战。GPT-4o将向所有ChatGPT用户免费开放使用,且API价格降低50%。一方面,对国内AI企业在成本控制和市场定价上形成压力,需要国内企业探索新的盈利模式和服务模式,以适应市场变化。另一方面,GPT-4o把AI工具的使用门槛降到最低,为中国AI企业开辟了广阔的发展空间。GPT-4o将推动AI解决方案向更高可及性和经济性的转变,使得小型初创公司及中型企业能够跨过以往的高成本门槛,拥抱先前因预算限制而难以触及的先进AI技术,可以专注于应用场景和商业模式创新。

三、中国AI产业高质量发展的几点建议

一是推动算力、模型和场景深度融合,着力打造人工智能产业生态。AI大模型作为新一代生产力之一,推动人工智能快速发展,构建从底层芯片到大模型自主创新的产业生态迫在眉睫。一方面,亟需挖掘好应用生态。应用是AI释放价值的主战场,国内具有丰富的产业应用场景,通过政府、行业协会等进行场景收集、场景发布等,建立供需对接机制,形成技术改造场景,场景推动创新的正向反馈。另一方面,要做好软硬件协同。国内基于CPU、通用GPU、ASIC/DSA等路线的多种AI芯片并存,算力异构和不兼容问题普遍存在,限制算力价值释放。通过构建软硬适配的开发,实现模型与算力的高效应用。

二是促进国产大模型与操作系统融合发展,拓展大模型商业价值。大模型作为模型层在使用过程中都面临微调、知识增强、智能代理等问题,非技术人员在使用过程中面临技术门槛。通过与操作系统融合,促进大模型“开箱即用”,可大幅提升使用效率和使用范围。一方面,与操作系统融合之后,大模型从模型层向基础软件层下沉,实现大模型与底层基础融合适配的同时减少模型调整等过程,降低大模型使用门槛,提升用户体验。另一方面,通过积极探索将大模型与操作系统深度绑定,利用操作系统庞大的用户基础,迅速扩大大模型使用市场,加速大模型商业价值转化。

三是重视人才培养,优化人才配置,推动产业与教育深度融合。人才是人工智能产业高质量发展的创新驱动引擎。一方面,从产业层面优化人才结构。放眼产业全局,围绕算力—算法—模型—平台—应用等全产业链优化高校专业设置,建立适应产业需求的人才结构。另一方面,需深化产教融合机制,打破传统教育与产业界线,促进双方在人才培养上的无缝对接。合作方式包括建立常态化的校企合作平台,鼓励企业参与高校课程设计与教学活动,将产业最新需求和实战案例融入教学内容等,确保教育输出与市场需求同步,塑造一批既有技术又懂产业转化的高端人才。

更多行业资讯,请扫描下方二维码关注“赛迪四川”公众号,获取最新动态。

公众号提供的内容用于个人学习、研究或欣赏,不可用于其他商业用途。如有关于作品内容、版权及其他问题,请及时在公众号留言。 如果获得转载授权,请注明作者姓名和转载的出处,不修改文章的标题、文字、图片或者音视频,以免曲解原文意思。