上海人工智能实验室：让AI具备全新多模态实时互动系统|人工智能实验室|新模型|服务器|模态|编码器|翻译|语音识别

这项由上海人工智能实验室联合香港中文大学、复旦大学等多家机构共同开展的研究于2024年12月发表在arXiv预印本平台，论文编号为arXiv:2412.09596v1。研究团队开发了一个名为InternLM-XComposer2.5-OmniLive（简称IXC2.5-OL）的创新系统，这是一个能够像人类一样同时进行感知、记忆和思考的多模态人工智能系统。

要理解这项研究的重要性，我们可以从人类的认知方式说起。当你和朋友聊天时，你的大脑会同时做很多事情：眼睛看着朋友的表情，耳朵听着他说话，同时大脑在理解内容、搜索记忆中的相关信息，并准备回应。这种"边看边听边思考"的能力对人类来说轻而易举，但对传统的人工智能系统却是个巨大挑战。

传统的AI就像一个只能按顺序工作的工人，它必须先"停下来看"，然后"停下来听"，接着"停下来思考"，最后"停下来回答"。这种工作方式让AI无法进行真正的实时对话，就好比你在和一个总是需要暂停几秒才能回应的朋友聊天，体验自然谈不上流畅。

更重要的是，现有的AI系统还面临着"记忆容量"的问题。它们通常只能记住最近发生的事情，就像一个患有短期失忆症的人，无法建立长期记忆。对于需要连续几天或几周服务的AI助手来说，这显然是不够的。试想如果你的AI助手每天都"忘记"昨天和你的对话，那还怎么提供个性化的长期服务呢？

研究团队从"专业化通才AI"的理念中获得灵感，这个概念可以用人类大脑的工作方式来理解。人类大脑的不同区域负责不同功能：视觉皮层处理视觉信息，听觉皮层处理声音，海马体负责记忆，前额叶皮层负责复杂思维。每个区域都是该领域的"专家"，但它们又协同工作，形成统一的认知体验。

基于这一理念，研究团队设计了IXC2.5-OL系统，它包含三个核心模块，就像人脑的三个专业部门。

第一个是流媒体感知模块，这就像是系统的"眼睛和耳朵"。这个模块能够实时处理视频和音频流，就像一个永不疲倦的观察员，持续监控环境变化。与传统AI不同，这个模块不会因为要处理其他任务而"闭上眼睛"或"捂住耳朵"。它采用了分离式处理策略，视频和音频信息被分别处理，确保每种信息都能得到最佳的处理效果。

视频处理部分使用了OpenAI的CLIP-L/14模型作为视觉编码器，它能够将每一帧画面转化为语义特征，就像将看到的场景翻译成计算机能理解的"描述文字"。音频处理部分则更加精妙，它不仅能进行自动语音识别（将说话转成文字），还能识别各种环境声音，比如雨声、狗叫声、敲门声等。更关键的是，它能判断何时人类开始提问，从而触发系统的思考和回应过程。

音频翻译模块的训练过程就像培养一个多语言翻译专家。研究团队使用了海量的语音数据，包括中文的WenetSpeech数据集（包含17,821,017个样本）和英文的LibriSpeech数据集（包含281,241个样本），以及许多其他专业音频数据集。这个模块使用了Whisper模型作为音频编码器，配合一个小型语言模型Qwen2-1.8B，形成了一个既能"听懂"又能"理解"的智能系统。

第二个是多模态长期记忆模块，这是系统的"大脑记忆中心"。这个模块的设计灵感来自人类记忆的工作机制。人类记忆分为短期记忆和长期记忆，短期记忆容量有限但信息详细，长期记忆容量巨大但相对抽象。系统模仿这种机制，将详细的短期视频片段压缩成高度概括的长期记忆。

这个过程就像制作电影预告片。原始的两小时电影（短期记忆）被压缩成两分钟的精彩片段（长期记忆），虽然细节减少了，但核心内容和关键信息都被保留下来。当用户提出问题时，系统首先搜索这些"预告片"找到相关内容，然后调取对应的详细"电影片段"进行分析。

记忆模块的训练涉及三个核心任务。首先是视频片段压缩，系统学会将一段视频的多帧画面压缩成几个关键的语义特征。接着是记忆整合，系统将多个短期记忆片段整合成更宏观的长期记忆。最后是视频片段检索，根据用户的问题快速找到相关的记忆片段。

特别值得一提的是，研究团队构建了两种独特的训练数据类型。一种是"语义隐含问题"，比如用户问"今天天气怎么样？"，系统需要理解这个问题实际上是在询问之前看到的雨伞、太阳镜等与天气相关的物品。另一种是"指代隐含问题"，比如用户说"这个是什么？"，系统需要理解"这个"指的是当前画面中的物品。这些训练让系统具备了更接近人类的理解能力。

第三个是推理模块，这是系统的"思考大脑"。这个模块基于改进版的InternLM-XComposer2.5模型构建，负责处理用户的问题并给出回应。它就像一个经验丰富的顾问，能够整合来自感知模块的实时信息和记忆模块的历史信息，做出综合判断。

推理模块还有一个特殊功能叫做"指令预测"。在现实对话中，人们经常会说一些无需回应的话，比如"嗯..."、"好的..."等。系统学会了识别哪些输入需要回应，哪些只是对话中的自然停顿，避免了不必要的打扰。

整个系统的协调工作就像一个高效的团队。感知模块持续收集信息，记忆模块存储和检索相关内容，推理模块综合分析并给出回应。三个模块异步工作，互不干扰，这样就实现了真正的实时交互。

为了验证系统的实际效果，研究团队进行了全面的性能测试。在音频处理方面，IXC2.5-OL在中文语音识别基准WenetSpeech和英文语音识别基准LibriSpeech上都表现出色。具体来说，在WenetSpeech的Test Net数据集上，系统的词错误率只有9.0%，在Test Meeting数据集上为9.2%。在LibriSpeech的各个测试集上，系统的表现同样令人印象深刻，在最干净的测试集上词错误率仅为2.5%，即使在最嘈杂的测试环境中也只有5.8%的错误率。

在视频理解方面，系统的表现更是突出。在MLVU这个专门测试长视频理解能力的基准上，IXC2.5-OL获得了66.2%的综合得分，超越了参数量小于10B的所有开源模型。在MVBench这个强调时间理解的视频基准上，系统获得了68.7%的整体准确率。特别值得关注的是，在最新的StreamingBench实时视频理解基准上，IXC2.5-OL达到了73.79%的成绩，创下了开源模型的最高纪录。

这些数字背后的意义可以通过具体场景来理解。比如在一个会议室里，系统能够同时听懂参会者的中英文发言，识别PPT上的内容变化，记住之前讨论的要点，并在被询问时准确回答相关问题。或者在家庭环境中，系统能够持续观察家庭成员的活动，记住每个人的习惯和偏好，在需要时提供个性化的建议和帮助。

系统架构的技术实现涉及前端、SRS服务器和后端服务器三部分。前端使用JavaScript开发，负责捕获摄像头和麦克风的输入，并与后端建立WebSocket连接接收音频输出。SRS服务器负责处理实时流媒体传输，支持多种流媒体协议。后端服务器则是整个系统的核心，运行着三个主要模块。

后端的工作流程就像一个忙碌但井然有序的新闻编辑室。音频读取线程持续接收音频流并切分成小段，语音活动检测线程监控何时有人开始说话，自动语音识别线程将语音转换成文字。同时，视频读取线程以每秒1帧的速度处理视频流，压缩器进程提取相关记忆并存储。当检测到用户提问时，系统会触发记忆检索和推理过程，最终生成回应并通过文字转语音模块播放给用户。

这种并行处理架构的优势在于各个组件可以独立工作，不会相互阻塞。就像一个餐厅里，服务员可以同时接受新订单、传递菜品和收拾桌子，每个任务都不会因为其他任务而停止。

从实际应用角度来看，这个系统开创了人工智能交互的新范式。传统的AI助手更像是一个"问答机器"，用户问一个问题，它给出一个答案，然后等待下一个问题。而IXC2.5-OL更像是一个有记忆的伙伴，它持续观察环境，积累经验，能够在合适的时候主动提供帮助，也能够基于长期互动提供个性化服务。

研究团队还展现了开放合作的精神，将所有代码和模型参数完全开源，包括推理和部署源代码，以及网页前端和后端代码。这种开放态度将加速整个多模态流媒体交互领域的发展，让更多研究者和开发者能够在此基础上创新。

当然，这项研究也面临着一些挑战和改进空间。目前系统的延迟仍然是一个需要优化的问题，研究团队已明确表示未来工作将重点关注降低系统延迟，以提供更加无缝的用户体验。此外，虽然系统目前分别处理音频和视频以确保准确性，但团队计划在未来版本中实现真正的多模态联合训练，让系统能够更好地理解音视频之间的关联。

从技术发展趋势来看，IXC2.5-OL代表了人工智能从"单任务工具"向"智能伙伴"转变的重要一步。它不仅展示了技术上的突破，更重要的是提供了一种新的人机交互范式。在这种范式下，AI不再是被动响应的工具，而是能够主动感知、持续学习、长期记忆的智能体。

这种转变的意义是深远的。在教育领域，这样的AI可以成为学生的长期学习伙伴，记住每个学生的学习进度和困难点，提供个性化指导。在医疗领域，它可以作为医生的智能助手，持续监控患者状态，记住病史和治疗进展。在企业环境中，它可以成为团队的智能秘书，记录会议内容，跟踪项目进展，在需要时提供相关信息。

说到底，InternLM-XComposer2.5-OmniLive的出现标志着我们向真正智能的AI助手迈出了重要一步。它让我们看到了AI技术的未来可能性：不再是冰冷的工具，而是能够理解我们、记住我们、陪伴我们的智能伙伴。虽然距离科幻电影中的完美AI伙伴还有距离，但这项研究无疑为我们指明了前进的方向。

对于普通人来说，这意味着未来我们可能拥有真正智能的家庭助手，它们能够记住家庭成员的习惯，理解每个人的需求，在合适的时候提供帮助。对于企业来说，这意味着更智能的客服系统和工作助手。对于整个社会来说，这代表着人工智能技术向着更人性化、更实用的方向发展。

如果你对这项研究的技术细节感兴趣，可以通过arXiv:2412.09596v1查询完整论文，或者访问研究团队在GitHub上开源的项目代码，亲自体验这个令人惊叹的智能系统。

Q&A

Q1：InternLM-XComposer2.5-OmniLive和传统AI助手有什么区别？

A：传统AI助手就像按顺序工作的工人，必须先停下来看，再停下来听，接着停下来思考，最后回答。而IXC2.5-OL能像人类一样同时进行感知、记忆和思考，实现真正的实时交互。它还具备长期记忆能力，能记住之前的对话和互动，提供个性化服务。

Q2：这个系统的三个核心模块是如何协同工作的？

A：系统包含三个专业模块：流媒体感知模块像永不疲倦的眼睛和耳朵，持续处理视频和音频；多模态长期记忆模块像大脑记忆中心，将短期记忆压缩成长期记忆并提供检索；推理模块像经验丰富的顾问，整合信息并给出回应。三个模块异步工作，互不干扰。

Q3：普通人什么时候能使用到这种AI系统？

A：研究团队已将所有代码和模型完全开源，包括前端和后端代码，这将加速技术发展和应用落地。虽然目前还需要优化延迟等技术问题，但这项研究为未来的智能家庭助手、企业客服系统和教育伙伴奠定了技术基础，相信不久的将来就能看到实际应用。