OpenAI再爆GPT-4o新“王炸”，中国人工智能企业何去何从？|gpt-4|openai|中国|人工智能技术|人机交互|王炸

人工智能产业创新研究中心

作者：殷长明、徐杨岚、郑翔凌

5月14日，美国开放人工智能研究中心OpenAI对外发布新一代旗舰生成模型GPT-4o，“o”代表“omni”，意为“全能的”。GPT-4o最大的亮点在于AI表达有了“情感”，能够真正使人类和计算机自然地交流，将人机交互体验推进到前所未有的高度。这标志着生成式AI技术的又一次重大进步，为各种应用领域将带来颠覆性的革新与挑战。

一、GPT-4o开启人机交互新时代

一是全面提升多模态交互能力。GPT-4o作为OpenAI最新推出的重磅产品，是在大模型竞技场进行A/B测试并拔得头筹的im-also-a-good-gpt2-chatbot模型的完善版本。GPT-4o能够实现对文本、语音、图像乃至视频等多种模态信息的高效处理与理解。用户不再需要通过特定格式的语言或媒介与机器沟通，无论是口头指令、文字输入，还是手势识别、视觉信号，GPT-4o都能实时准确捕捉并作出带有情绪化的响应，仿佛从冰冷的“机器”蜕变为充满真情实感的“伙伴”。作为端到端训练的新模型，所有语音、文本、图像乃至视频的输入和输出都凝结在同一神经网络，GPT-4o重新向外界定义了什么是真正的“多模态”模型。

二是重塑未来人机交互模式。GPT-4o的推出，标志着人机交互体验迈入新阶段。传统AI系统的反馈往往显得机械且缺乏情感色彩，GPT-4o摒弃传统TTS（Text-to-Speech）机制及其可能带来的反应时延，最快可以在232毫秒的时间内响应音频输入，平均响应时长为320毫秒，达到与人类响应速度相似的水平。同时，情绪不再仅是人与人之间的专属交流通道，基于GPT-4o底层模型的层层剖析，也能实现情绪的具象化传递与精妙的情感互动反馈。GPT-4o能够通过人脸表情和姿态来推断情绪，通过视觉识别来回答关于所观察场景的问题，能够感知房间内的光线变化并描述其特点等。GPT-4o凭借强大的洞察与感知能力，为交互体验增添了前所未有的深度与温度。

三是加速扩展多领域应用场景。GPT-4o的颠覆式创新，不仅限于技术层面的优化，还将为各行各业开启无限可能。在心理健康领域，利用技术手段观察患者的表情和情绪变化，以实现更加个性化和及时的情感支持及医疗反馈；在实时视觉助手领域，GPT-4o能够实时读取和解析视觉画面，使得它能够作为AI导盲犬帮助视障人士，或者作为AI教练提供实时反馈。此外，在教育、医疗、娱乐等多个领域，GPT-4o也能通过精准的数据分析、决策支持、情绪感知等，推动行业的智能化转型和效率提升。正如OpenAI创始人萨姆・奥特曼所言：“我们创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，我们所有人都会从中受益。”

二、GPT-4o给国内AI企业带来巨大挑战和威胁

一是技术标杆压力跃升。GPT-4o的推出彰显了OpenAI在AI技术上的快速迭代能力，对国内AI企业构成显著的技术代差压力。GPT-4o在多模态交互、实时推理和语音对话流畅性方面的重大突破，为国内AI企业设定了全新的技术高点。例如，GPT-4o能够在极短的延迟内响应音频输入，提供与人类相似的交互体验；GPT-4o能够通过视频甚至音频识别通话者的情绪状态，并据此调整交流方式；在对话中用户可随时打断GPT-4o，模型能够即时反应并无缝地继续对话，极大地增强交互的自然性和实时性。

二是重塑合作与竞争格局。GPT-4o未来将与苹果、微软等公司的操作系统深度绑定，甚至可能替代传统助手，如Siri，这将使国内AI企业面临合作与竞争环境的双重变化。一方面，深度绑定操作系统可以使模型能够无缝集成到操作系统中，提供更流畅和一致的用户体验。另一方面，苹果和微软公司的操作系统拥有庞大的用户基础，与操作系统的深度绑定将使GPT-4o能够触及到更多用户，迅速扩大其影响力和市场覆盖范围。由此将给国内手机企业及AI企业带来巨大生存压力。

三是成本与性价比的大挑战。GPT-4o将向所有ChatGPT用户免费开放使用，且API价格降低50%。一方面，对国内AI企业在成本控制和市场定价上形成压力，需要国内企业探索新的盈利模式和服务模式，以适应市场变化。另一方面，GPT-4o把AI工具的使用门槛降到最低，为中国AI企业开辟了广阔的发展空间。GPT-4o将推动AI解决方案向更高可及性和经济性的转变，使得小型初创公司及中型企业能够跨过以往的高成本门槛，拥抱先前因预算限制而难以触及的先进AI技术，可以专注于应用场景和商业模式创新。

三、中国AI产业高质量发展的几点建议

一是推动算力、模型和场景深度融合，着力打造人工智能产业生态。AI大模型作为新一代生产力之一，推动人工智能快速发展，构建从底层芯片到大模型自主创新的产业生态迫在眉睫。一方面，亟需挖掘好应用生态。应用是AI释放价值的主战场，国内具有丰富的产业应用场景，通过政府、行业协会等进行场景收集、场景发布等，建立供需对接机制，形成技术改造场景，场景推动创新的正向反馈。另一方面，要做好软硬件协同。国内基于CPU、通用GPU、ASIC/DSA等路线的多种AI芯片并存，算力异构和不兼容问题普遍存在，限制算力价值释放。通过构建软硬适配的开发，实现模型与算力的高效应用。

二是促进国产大模型与操作系统融合发展，拓展大模型商业价值。大模型作为模型层在使用过程中都面临微调、知识增强、智能代理等问题，非技术人员在使用过程中面临技术门槛。通过与操作系统融合，促进大模型“开箱即用”，可大幅提升使用效率和使用范围。一方面，与操作系统融合之后，大模型从模型层向基础软件层下沉，实现大模型与底层基础融合适配的同时减少模型调整等过程，降低大模型使用门槛，提升用户体验。另一方面，通过积极探索将大模型与操作系统深度绑定，利用操作系统庞大的用户基础，迅速扩大大模型使用市场，加速大模型商业价值转化。

三是重视人才培养，优化人才配置，推动产业与教育深度融合。人才是人工智能产业高质量发展的创新驱动引擎。一方面，从产业层面优化人才结构。放眼产业全局，围绕算力—算法—模型—平台—应用等全产业链优化高校专业设置，建立适应产业需求的人才结构。另一方面，需深化产教融合机制，打破传统教育与产业界线，促进双方在人才培养上的无缝对接。合作方式包括建立常态化的校企合作平台，鼓励企业参与高校课程设计与教学活动，将产业最新需求和实战案例融入教学内容等，确保教育输出与市场需求同步，塑造一批既有技术又懂产业转化的高端人才。

更多行业资讯，请扫描下方二维码关注“赛迪四川”公众号，获取最新动态。

公众号提供的内容用于个人学习、研究或欣赏，不可用于其他商业用途。如有关于作品内容、版权及其他问题，请及时在公众号留言。如果获得转载授权，请注明作者姓名和转载的出处，不修改文章的标题、文字、图片或者音视频，以免曲解原文意思。