OpenAI发布新模型GPT-4o|gpt-4|openai|人工智能|视频生成模型

本报特约记者谢昭本报记者刘扬

美国人工智能公司OpenAI于14日凌晨正式推出新一代人工智能（AI）模型GPT-4o，美国有线电视新闻网（CNN）注意到，它的最突出特点是在与人的交互方面更为自然。

根据OpenAI发布的新闻稿，GPT-4o的“o”代表“omni”，即“全能”之意。它可以在最快232毫秒的时间内响应音频输入，平均响应时间为320毫秒，几乎接近人类在交谈中的响应时间。

在发布会的演示环节，GPT-4o展示了它与众不同的互动能力。它能用一种非常自然的语调与人交流。在根据工作人员要求讲故事时，工作人员可以随时插话打断并提出新要求，GPT-4o能几乎毫无停顿地接上话题并按照要求变化音色、语调、情感等。GPT-4o可以检测用户的情绪，并以类似人类或机器人的语调与用户交谈。OpenAI表示，此前的AI语音模式由不同的独立模型组成，分别负责将音频转换为文本，接收文本并输出文本，再将文本转换回音频。在这些环节中会丢失大量信息，因此无法识别音调、多个说话者或背景噪音，也无法输出表达情感的语音。而GPT-4o支持文本、音频和图像的任意组合输入，并能够生成文本、音频和图像的任意组合输出，这意味着它能够结合视频和音频感受对话者的情绪，并给出充满人类情感的反馈。在对话中发现工作人员的深呼吸时，GPT-4o鼓励说“冷静下来”。CNN称，GPT-4o的语音令人想起美国科幻电影《她》中的AI。GPT-4o还展示了解读代码、分析图表等各种能力。

不过，GPT-4o在演示过程中也出现一些失误。英国广播公司（BBC）称，这表明生成式AI的“幻觉”问题仍未得到解决，距离解决聊天机器人不可靠的问题还有很长的路要走。

清华大学新闻学院新媒体研究中心主任、跨学科知名学者沈阳教授14日对《环球时报》记者表示，GPT-4o把多模态融合能力发挥得比较好，无论是识别还是语音的精细化改造方面。此前的各种大模型的语音做得也不错，但多少还能听出一点AI的声音，现在经过进一步升级，GPT-4o具有很强的情感感染力，让人很难分辨出来了。

沈阳表示，此前GPT主要还是模拟意识，如今有向模拟生命转化的趋势，可以把GPT-4o看作是向“灵魂伴侣”方向发展。由于大模型对语音助手的加持，它会变成日常高频交流的“朋友”，如果这种趋势持续下去，显然人们大量的使用时间将会消耗在跟语音助手的聊天当中，因为我们面对的将是一个权威全知的AI助手。这可能会导致人与人的关系在一定程度上解耦。也就是说人类朋友的数量可能随着跟AI聊天的时间增加而减少，这可能会带来一个非常重大的社会影响。此外，GPT-4o提升了视觉与语音能力，跟硬件的结合也会比较好。所以未来它可以更加广泛地应用到汽车、智能硬件等设备之中。▲