EventVL：通过多模态大语言模型理解事件流|大语言模型|客户端节点|显式|模态

EventVL：通过多模态大语言模型理解事件流

EventVL: Understand Event Streams via Multimodal Large Language Model

https://www.arxiv.org/pdf/2501.13707

摘要

基于事件的视觉语言模型（VLM）最近在实际视觉任务中取得了良好进展。然而，这些工作大多仅利用 CLIP 来关注传统感知任务，这阻碍了模型从事件流中明确理解充分的语义和上下文。为解决这一不足，我们提出了 EventVL，这是首个用于显式语义理解的基于生成式事件的多模态大语言模型（MLLM）框架。具体而言，为弥合连接不同模态语义的数据鸿沟，我们首先注释了一个大型事件 - 图像 / 视频 - 文本数据集，包含近 140 万对高质量数据，支持在驾驶场景或人体运动等各种场景中进行有效学习。之后，我们设计了事件时空表示，通过对事件流进行多样化的聚合和分割来充分探索综合信息。为进一步提升紧凑语义空间，引入了动态语义对齐来改进和完善事件的稀疏语义空间。大量实验表明，我们的 EventVL 在事件字幕和场景描述生成任务中显著超越了现有 MLLM 基线。我们希望我们的研究能为事件视觉社区的发展做出贡献。

1. 引言

事件相机是一种以微秒级精度异步测量每个像素强度变化的传感器。与传统相机相比，事件相机具有几个显著优势 [14]，包括高动态范围（>120 dB）、抗运动模糊、高时间分辨率和极低的功耗。这些优势使得基于事件的方法在机器人 [18] 和成像应用 [36,44] 等不同领域取得了显著成功。尽管事件相机提供了更丰富的语义信息（包括连续的时间运动和更高动态范围的光照），但对高级别和开放世界理解任务的探索仍然有限。

随着视觉语言模型（VLMs）[26,35] 在图像理解方面取得巨大成功，基于事件的社区开始开发基于事件的 VLM，以全面理解事件数据，这对大规模场景理解等下游任务 [48,52]（如开放词汇分割 [25]）有益。这些工作大多基于 CLIP [34]，通过根据任务场景弥合这些数据之间的模态鸿沟，专注于图像 - 事件 - 文本对的对齐。尽管取得了成功，但由于对事件数据的理解较为粗糙，这些基于 CLIP 的方法局限于传统感知任务 [43,51]，难以推广到细粒度动态语义任务，例如对象运动模式的详细描述以及对象之间的各种关系。这导致了许多场景（如自动驾驶或导航）在空间理解方面的瓶颈。最近，当前的多模态大语言模型（MLLMs）[1,29] 已将图像或视频作为输入，以获得准确和细粒度的文本描述，将视觉感知提升到基于自然语言的世界理解。我们认为，MLLM 有潜力克服事件数据的场景理解限制，并为用户交互提供通用的语言界面。

然而，要训练一个基于事件的 MLLM，我们面临两个主要挑战。首先，当前图像 - 事件 - 文本对数据集中缺乏高质量的文本注释，阻碍了模型捕捉细粒度的语义信息 [23,40]。在这些数据集中，像 “这是一个 {类别}” 这样的粗略文本描述限制了模型对类别形状的学习，并阻碍了模型挖掘更多基于事件的类别知识（如颜色或材料），从而妨碍了对事件数据的细粒度语义理解。其次，与图像不同，事件数据作为时空点云的一种格式，与当前的 RGB 编码器架构不兼容。此外，在特征提取过程中保留事件数据内高度的时空相关性具有挑战性。对事件的不充分表示会损害事件 - 图像 - 文本的细粒度对齐，导致次优的场景理解。

为解决上述挑战，我们提出了 EventVL，这是首个基于事件的 MLLM 框架，如图 3 所示。在数据工程方面，我们首先利用当前强大的开源 MLLM 模型 [7] 注释了近 140 万对高质量的图像 - 文本 - 事件配对数据，该数据在许多理解基准测试中已超越了 GPT-4o [1] 等商业 MLLM。对于 EventVL，我们提出了事件时空表示，以进一步挖掘事件数据内的时空相关性。我们将事件数据在空间和时间上分割成不同的帧，并利用注意力块来捕捉语义交互，这可以增强特征表达。为了对图像和事件的潜在特征空间进行细粒度对齐，我们提出了动态语义对齐，用于严格的高分辨率语义提取，实现事件和图像之间的细粒度对齐。

综合实验验证，我们提出的 EventVL 在零 / 少样本事件字幕、事件流描述生成任务和基于事件的对话方面超越了其他最先进技术（SOTAs）。此外，与其他 MLLM [30,38] 相比，我们的模型参数数量极少（约 23 亿），使其能够以低成本部署到现实世界。如图 1（a）所示，EventVL 可以充分理解语义，并为跨不同领域的事件流生成精确描述。此外，如图 1（b）所示，它支持基于事件数据的多轮对话，实现更深入的语义理解。

总之，我们的贡献有三个方面：
（1）我们提出了首个基于事件的 MLLM 框架，名为 EventVL，它将大规模事件编码器与图像编码器和 LLM 对齐。该模型在基于事件的生成任务（如描述或对话）上表现出强大的性能。
（2）我们提出了一个简单但高效的描述生成引擎，通过利用开源 VLM 来获取高质量的多模态数据。处理后的数据集包含跨各个领域的近 140 万对数据。据我们所知，这是基于事件的社区中最大的多模态对数据集。
（3）提出了事件时空表示，用于特征自适应和高效聚合。我们还提出了动态语义对齐模块，用于细粒度特征对齐，从而实现精确和全面的基于事件的理解。

2. 相关工作基于事件的视觉语言模型（Event-based VLMs）：

与发展成熟的图像理解领域不同，事件视觉社区在开发用于事件理解的通用模型方面仍处于早期阶段。最初的研究工作 [24,47] 专注于使用自监督方法创建用于事件理解的预训练主干网络。受 CLIP 在计算机视觉中成功的启发，研究人员开始探索其在详细且细粒度的事件分析中的应用。[43] 提出将事件流转换为类似 RGB 的表示形式，以利用 CLIP 的架构实现事件 - 文本对齐。最近，基于 CLIP 的方法已应用于更复杂的下游任务，如运动分类 [40] 和场景分割 [25]。然而，这些研究主要集中在判别性任务上，未能实现细粒度的理解，这限制了它们在生成性任务（如交互式事件条件文本生成）中的应用。针对事件流细粒度理解需求的不断增长，我们致力于引入一个统一的基于事件的多模态大语言模型（MLLM）框架。该框架旨在通过显式语言全面理解事件流的语义，并与各种类型的事件数据兼容。

开源多模态大语言模型（Open-Source MLLMs）：

开源多模态大语言模型 [17,29,30,38] 的出现通过增强处理视觉和文本数据的能力，对通用人工智能（AGI）领域产生了深远影响。在过去一年中，一些开源 MLLM 崭露头角，如 MiniGPT-4 [53] 和 VisionLLM [39]。然而，这些模型通常依赖传统图像或视频作为输入，这可能导致在极端成像条件下生成低质量图像，从而削弱对世界的全面理解。事件相机凭借其独特的特性可以有效解决这些挑战。因此，我们正在探索将基于事件的数据集成到现有 MLLMs 中，以释放事件数据的全部语义潜力。

3. 数据工程

高质量数据集对训练多模态大语言模型（MLLM）至关重要。现有的一些图像 / 视频与事件配对的数据集 [23,40] 仅提供如 “这是一个类别” 的基础分类文本注释，缺乏细节和多样性。尽管部分研究建议使用粗糙的图像文本数据补充 N-ImageNet 等图像 - 事件数据集的多样性，但这类注释与图像关联度低且包含大量无关信息。我们的实验表明，使用此类数据集训练会导致模型性能下降。因此，重新注释数据以构建更精确、细粒度的数据集是提升 MLLM 理解能力的关键。

如图 2 所示，我们为包含静态图像、动态场景和人体运动的不同领域数据集设计了一个简单高效的描述生成引擎。选择 InternVL2-76B [7] 作为基础模型，其在多项理解基准测试中表现优于 GPT-4o、Claude 3.5 等先进模型（SOTAs）。相比商业引擎，使用该模型标注数据既能降低成本，又能生成更高质量的描述。

粗粒度生成

我们手动设计了与各类数据集对应的提示词和问题列表（详见附录）。对于图像 - 事件数据集（如 N-ImageNet、N-Caltech101），首先从问题列表中随机采样问题，将图像与问题一同输入 InternVL2-76B 生成粗粒度字幕；对于视频 - 事件数据集（如 HARDVS、DSEC），若使用全帧生成描述会导致大量计算消耗 [8,25]，因此我们均匀采样 n 帧（若视频总帧数少于 n 则全选），实验中取 n=14 以平衡成本与性能，再将视频与对应指令输入模型生成详细描述。

人工校验

逐一对图像 / 视频文本描述进行人工校验成本极高，因此我们基于数据集的类别分布设计采样校验策略：N-ImageNet（1000 类）、N-Caltech101（101 类）、HARDVS（300 类）、DSEC（20 场景）中，每类 / 场景随机抽取 5 条粗粒度描述校验。若某类描述质量不达标，则使用修改后的提示词和指定问题重新输入该类所有图像 / 视频生成字幕。最终，除 N-Caltech101 外的所有注释多模态配对数据集将混合用于模型训练（数据集性能验证见表 4）。我们准备的数据集包含近 140 万图像 / 视频 - 事件 - 文本对，覆盖多领域场景，为事件理解任务提供了坚实保障。

4. 方法

4.1. 事件时空表示

事件流承载着所捕获场景的丰富信息 [37]。为实现有效的场景理解，构建与神经网络兼容的事件流综合表示以编码时空语义至关重要。因此，我们提出事件时空表示，通过分割和捕获细粒度的时间与空间信息来实现这一目标。其中，分层时间分割和自适应空间分割分别用于获取包含时间和空间信息的不同事件帧组，最终将所有事件帧拼接以聚合细粒度的时空信息。

4.2. 动态语义对齐

通过应用此损失函数，可以实现时空细粒度对齐，并将事件数据投影到与图像数据相同的潜在空间中。

4.3 框架优化

我们还观察到，文本输入通常包含纹理和颜色等详细描述，而由于事件成像的特性，这些描述在对应的事件数据中并不存在。仅依赖事件 - 文本对齐可能导致次优结果，因为它可能会聚焦于缺失的语义元素。因此，为了优化嵌入对齐，我们在公式 3 中引入图像嵌入作为先验，有效地限制搜索空间并增强整体对齐过程：

4.4. 推理

EventVL 提供两种推理流程。第一种仅将事件模态作为输入。第二种则结合图像和事件模态作为输入，具体而言，我们直接将事件嵌入与图像嵌入相加，作为输入嵌入。

5. 实验 5.1. 实验设置

实现细节可参考附录。
数据集：N-ImageNet [23] 是 ImageNet 的事件相机版本，也是最大的事件相机数据集，包含近 120 万条事件流和 1000 个类别。HARDVS [40] 是最近发布的基于事件的动作识别数据集，目前拥有最多的动作类别，即 300 个动作类别的 107,646 条记录。DSEC [16]（驾驶立体事件相机）数据集是专注于基于事件视觉的自动驾驶数据集。我们还使用 N-Caltech101 [31] 评估模型的零样本性能并进行进一步的少样本测试。与 N-ImageNet 的构建类似，N-Caltech101 包含来自 101 个类别的 8,246 个样本。更多数据集细节可在附录中找到。
数据集预处理：整体处理后的数据集信息可参考表 1。在按照第 3 节对这些数据集进行注释后，我们将 N-ImageNet [23]、HARDVS [40]、N-Caltech101 [31] 中的图像 / 视频 - 事件 - 文本对按类别划分为相应的训练集和验证集。对于 DSEC 训练集，我们将其场景视频分割为多个帧组后整体使用。为进行零样本评估，同一数据集中每个分割的类别互不重叠。少样本数据集设置可在附录中找到。

5.2. 字幕生成

零样本评估：为评估我们提出的框架基于事件的理解性能，我们与选定的最先进（SOTA）多模态大语言模型（MLLM）基线进行了比较，包括基于图像的 [29, 30, 38] 和基于视频的 MLLM [9, 28]。如表 2 所示，我们可以得出结论：基于视频的 MLLM 能够为事件数据生成更高质量的描述，这由事件数据的流特性决定。最终，实验结果证明了 EventVL 描述事件数据的有效性。我们提出的 EventVL 在 HARDVS 和 N-ImageNet 上分别显著达到 2.603 和 0.573 的 CIDEr 分数，大幅优于现有工作，显示了我们在事件理解能力方面的优势。此外，我们的模型参数仅为 23 亿，证明了其高效性，易于在边缘设备上部署。

少样本评估：我们还探索了训练数据规模对基于事件的理解性能的影响。如表 3 所示，性能与数据集大小密切相关，基本符合缩放定律 [10] 的原理。当 n=5 时，模型学习到更多类不变知识，有利于进行更全面的感知。我们还得出结论：在少量数据（n≤10）下，我们的模型在事件分析中能获得显著提升，验证了我们的设计优势。然而，当 n≥20 时，基于事件的理解能力提升逐渐放缓，因为在有限参数下，基于事件的知识学习已接近其极限。

5.3 定性结果

我们在零样本设置下对各种场景验证集进行了定性实验，并使用 VideoLLaMA2 [9] 与我们提出的 EventVL 进行比较。如图 4 所示，仅将事件数据作为输入时，我们的模型能够为这些基于事件的表示生成准确描述，而 VideoLLaMA2 常常生成一些无用文本（如下划线标注的 “在点域中环绕”）。这是因为当前 MLLM 的训练数据不包含基于事件的表示，导致其在显式识别中出现事实幻觉错误。此外，我们的模型能够轻松感知低光、模糊等复杂场景中的物体和动作，并提供全面描述。例如 HARDVS 案例左上角的示例，EventVL 不仅能描述动作，还能推断出人物服装的颜色。接下来，我们通过评估驾驶场景考察了 EventVL 的长描述生成能力。如图 5 所示，EventVL 能够为交通场景生成更精确的描述，甚至具备合理的预测能力（如第二例中橙色标注的 “交通灯为绿色”）。而 VideoLLaMA2 在处理此类表示时容易产生幻觉（如红色标注的事故描述错误）。定性结果验证了我们在理解事件表示方面的优势，多轮对话和失败案例分析见附录。

5.4 消融实验

本节中，我们利用零样本字幕生成评估设置进行全面消融研究，以探究各模块的有效性（更多消融实验见附录）。

数据集质量评估

我们首先验证所构建数据集的有效性。如表 4 所示，使用从 InternVL2-2B 初始化的未训练 EventVL 在所有验证集上测试，观察当前 SOTA MLLM 权重在处理后数据集上的表现。实验表明，红蓝颜色映射的事件表示会使 MLLM 产生混淆，导致理解能力严重下降，且事件数据会干扰 MLLM 对图像的理解。这些现象证实了 MLLM 在事件理解上的缺陷，也凸显了本研究的必要性。同时，表 5 的模型训练性能分析显示：单领域数据集训练仅对对应验证集有正向效果，对其他验证集的提升微乎其微。

5.5 扩展应用

我们还探索了基于 EventVL 框架的其他下游任务。例如，该模型可轻松适配事件 - 图像 - 文本检索任务。与 EventBind [52] 的对比结果见表 6（实验设置与讨论详见附录）。

6. 结论

在这项工作中，我们提出了 EventVL—— 首个旨在实现事件流数据全面理解的基于事件的多模态大语言模型（MLLM）。通过集成捕获丰富语义信息的先进事件编码器、用于高效特征聚合的新型事件时空表示，以及实现细粒度特征对齐的动态语义对齐机制，EventVL 显著提升了对基于事件数据的理解与推理能力。此外，我们贡献了一个包含近 140 万事件 - 图像 - 文本对的大规模高质量注释数据集，为未来基于事件的研究提供了坚实基础。我们相信，EventVL 为以对话为中心的事件流理解开辟了新方向，并为事件驱动的多模态系统的未来突破奠定了基础。

EventVL：通过多模态大语言模型理解事件流

补充材料

7. 相关工作基于事件的视觉

事件相机的微秒级时间分辨率、高动态范围（通常为 120 dB，而标准相机为 60 dB）和低功耗特性，代表了成像领域的范式转变，超越了传统的基于帧的方法 [14]。众多基于事件的低级成像任务已被开发，包括识别、感知、定位和重建，覆盖了目标识别 [11,33]、目标检测 [15,44]、光流 [12,27]、语义分割 [25]、深度估计 [32] 和目标重建 [13,21,22,42,49] 等领域，这些任务常利用神经辐射场（NERF）或高斯 splatting 等技术。尽管基于事件的模型在这些传统感知任务中已展现出成功，但基于事件的多模态大语言模型（MLLM）的探索仍基本处于未开发状态。在本文中，我们专注于一种新颖的应用 —— 用于全面理解事件流的事件字幕生成和描述。这一工作旨在解决稀疏、异步且高时间分辨率的事件数据所带来的挑战，目标是生成显式的语言描述。此类能力对安全关键型应用（如无人机或车载感知系统）尤为重要。

8. 预备知识

事件相机的原始流输出由一组异步生成的事件组成，每个事件由 (x, y, t, p) 表示。其中，(x, y) 是空间坐标，t 是时间戳，p 表示强度变化的极性：+1 表示亮度增加，−1 表示亮度降低。这些事件具有大于 120 dB 的高动态范围和相当于每秒数千帧的高时间分辨率。然而，直接处理事件流具有挑战性 [14]。先前的工作通常将事件表示为类帧形式，如灰度风格 [43] 或红蓝颜色映射 [25,52]，以简化跨模态对齐。

9. 数据工程设置

本节主要介绍原始数据集信息、问题列表及处理细节。

9.1 原始数据集

N-ImageNet [23]
：作为最大的事件相机数据集，包含 178 万条事件流和 1000 个类别。数据通过移动的 480×640 分辨率三星 DVS Gen3 事件相机在相同环境条件下采集。N-ImageNet 还提供了不同相机运动和亮度条件下的测试集变体，用于评估事件分类器的鲁棒性。作者创建了 9 个同测试集的变体：变体 1-5 改变触发事件的相机运动参数（包括运动方向、频率和轨迹振幅），变体 6-9 改变环境光照条件（如极亮或极暗场景）。这些变化会导致现有基于事件的分类器性能显著下降。
N-Caltech101 [31]
：包含来自 101 个类别的 8246 个样本，通过移动的 180×240 分辨率 ATIS 系统录制，拍摄对象为显示原始 RGB Caltech101 数据集静态图像的显示器。
HARDVS [40]
：首个大规模真实神经形态人类活动识别数据集，包含超过 10 万段由 DAVIS346 相机录制的视频片段（每段约 5-10 秒），覆盖 300 种日常人类活动（如喝水、骑自行车、坐下、洗手等）。为增强数据多样性，HARDVS 考虑了多视角、光照、运动速度、动态背景、遮挡、闪光灯和拍摄距离等因素。
DSEC [16]
：专为高级驾驶辅助系统（ADAS）和自动驾驶研究设计的综合数据集，重点关注基于事件的视觉和立体视觉。与 DDD17 [3] 不同，DSEC 结合了事件相机和传统 RGB 相机数据，为感知任务提供了丰富的互补数据源。数据集包含高分辨率图像和事件数据，覆盖城市、郊区、高速公路等多种驾驶环境，以及不同天气和时段条件。本文仅使用 DSEC 训练集进行后处理：首先将每个场景视频按 24 帧 / 段分割，再按第 3 节方法生成描述。

9.2 处理细节

不同问题列表如图 6 所示。每次数据注释时，从对应列表中随机采样问题：

N-ImageNet：直接使用完整事件对数据集训练，不使用其变体。
N-Caltech101：仅用于验证 EventVL 的有效性。
HARDVS：为提高效率，直接使用红蓝颜色映射表示（而非原始事件数据）。每个类别中，对每个视频均匀采样 14 帧进行后处理；若视频帧数不足 14 帧，则使用全帧。
DSEC：为训练效率，每个片段仅采样 14 帧。

10. 方法

如图 7 所示，我们通过一个案例可视化了由事件时空表示处理的事件流。我们从时间和空间维度解耦事件流，以获得事件流的综合表示。接下来，我们对提出的自适应空间分割（Adaptive Spatial Split）进行进一步解释。对于预定义集合 K，我们使用算法 1 来完成 K 的构建。当我们将 nmin 设为 1、nmax 设为 6 时，K 的取值范围为 {1:1,1:2,...,6:1}。然后，我们将 K 用于 4.1 节中后续的事件空间分割。

11. 实验 11.1. 实现细节

基础模块：我们选择 InternViT-300M-448px [7] 作为图像和事件编码器的基础架构，因其在各类图像和视频理解基准测试中已证明有效性。该模型包含 24 个注意力块（如图 8 所示），其中 “Drop” 表示常用于残差块主路径的丢弃路径（drop path）。在我们的设置中，B 表示批量大小，C 为通道数，H 和 W 为图像或事件的高度和宽度，P 为补丁数量，Cϕ 为最终输出嵌入通道数。具体参数设置为：H = W = 448，Cϕ = 2048，P = 256。我们还利用 InternViT 的预训练权重进行初始化，从而将图像的空间先验知识迁移至事件数据，这加速了 EventVL 的训练并提升了数据效率。对于文本解码器，我们选择了 InternLM2-1.8B [4]，其在推理和编码等能力上已展现显著提升。

通用设置

在动态语义对齐中，我们将 nmin 设为 1、nmax 设为 6，并设置 λ1=1 和 λ2=1 以平衡多模态对齐。由于 N-ImageNet 与 N-Caltech101 的事件数量规模不同，我们为每个数据集设置不同的每帧事件点数 nϵ：N-ImageNet 中 nϵ=40000，N-Caltech101 中 nϵ=20000。若事件点总数 Nϵ 不满足 4.1 节中所有层级事件表示的需求，则对事件流进行填充后处理。需注意，对于 HARDVS [40] 和 DSEC [16] 数据集中的视频 - 事件对，我们不使用事件时空表示（因其已包含足够时空信息），而是直接通过公式 1 的余弦相似度对齐视频 - 事件模态，最终优化目标与图像 - 事件对数据集训练一致。由于各领域数据规模不均衡，我们采用加权采样策略进行混合训练：N-ImageNet 的训练采样权重设为 0.6，DSEC 为 0.1，HARDVS 为 0.3。使用 COCO 字幕指标 [6] 进行模型性能定量分析，所有训练在 8 块 Nvidia GTX A6000 GPU 上进行约 120 小时，批量大小设为 2，并采用 DeepSpeed ZeRO-1 训练策略提升效率。

零样本设置

我们使用 N-ImageNet、HARDVS 和 DSEC 的训练分割进行训练，为避免过拟合，仅训练 1 个 epoch。在验证集上评估 EventVL 的零样本描述生成能力，输入仅为事件数据。

少样本设置

对于少样本实验，我们从 N-ImageNet、HARDVS 和 DSEC 的全量数据中采样 n-shot 数据进行少样本训练，然后使用包括 N-Caltech101 在内的剩余数据集评估性能。为学习足够的基于事件的类别知识，所有少样本训练采用 3 个 epoch。

11.2 零样本评估的更多案例

如图 9 和图 10 所示，我们提供了额外的示例来验证仅将事件数据作为输入时，我们提出的 EventVL 框架的优越性。这些示例表明，与 VideoLLaMA2 相比，EventVL 能从给定的事件流中捕获更细粒度的细节，突出了我们框架的有效性。

11.3 多轮对话

如图 11 所示，我们展示了若干示例，验证了 EventVL 框架在基于事件数据的多轮对话中的应用。这些案例表明，EventVL 既能理解事件数据中的整体语义，也能捕捉物体的细微特征 —— 例如描述 “清澈的蓝天” 等细节。

11.4 消融实验数据集质量评估

我们探究了单领域数据集训练对模型性能的影响，结果汇总于表 5。实验发现：跨领域训练可通过缓解单领域过拟合问题，提升模型对事件数据的通用理解能力。例如，该策略使 N-Caltech101 数据集的 CIDEr 指标提升近 20%。此外，引入场景数据（DSEC）能增强模型捕捉宏观上下文的能力 —— 对比未使用 DSEC 训练的情况，HARDVS 的 CIDEr 指标显著提升。同时，事件理解能力的提升也促进了模型整体多模态理解：相较于表 4 结果，我们的方法在 N-ImageNet 验证集上实现 1.769 的 CIDEr（+46.3%），大幅优于未训练模型（1.306 CIDEr）。

事件表示

如表 8 所示，若移除动态分块设置（nmax=1），模型性能显著下降。当 nmax 取值较低（如 nmax=5）时，因语义信息不足导致图像与事件的对齐粗糙；而将 nmax 提升至 8 等更高值时，EventVL 的理解能力未进一步增强 —— 因其类别知识已达固有上限，且更大的 nmax 会消耗更多 CUDA 内存。为平衡性能与资源消耗，我们选择 nmax=6 以实现高效的时间交互和语义提取。此外，对自适应空间分割中不同层级聚合的分析（表 7）表明：全层级事件聚合性能最优，任意层级表示的缺失都会导致框架有效性下降。

优化设置

表 9 分析了训练目标的核心组件：仅使用交叉熵进行事件 - 文本对齐时，N-ImageNet 评估的 CIDEr 指标下降 9.7%；引入图像先验可提升性能，这可能是通过弥合文本与事件数据的语义鸿沟实现的；所提出的 Lc 进一步使 N-ImageNet 的 CIDEr 提升 5.8%，强化了多模态对齐。

我们还考察了公式 5 中优化目标的权重设置影响（表 10）。结果显示：基于文本的对齐对模型理解事件数据的影响更大，λ1 取值降低会导致性能显著下降，凸显了该权重在优化策略中的重要性。

11.5 失败案例

如图 12 所示，我们展示了 EventVL 的若干失败案例，总结出三类错误：误分类（案例 (a,f,g)）、误解（案例 (d,e,i)）和识别失败（案例 (b,c,h)）。对于误分类，当事件流质量较差时，模型在区分不同动物类别上存在局限。例如案例 (a) 中，模型将鸡误判为 “狗”。其次，在误解方面，模型无法准确识别正在进行的活动或场景元素，如案例 (d) 中，弹竖琴的老人被错误描述为 “粉刷窗户”。尽管多模态对齐在后期处理中迫使模型学习此类知识，但模型仍难以捕捉事件数据的表面细节（如物体纹理）。最后，识别失败案例（如案例 (c)）中，模型未能提及场景中显眼的粉色花朵。这些失败案例揭示了将视觉模型应用于事件相机数据的根本挑战：事件相机生成的独特纹理模式和视觉表征可能引入歧义，导致传统视觉模型难以准确解读。未来我们将探索更高效的策略，弥合图像与事件的鸿沟，以提升事件理解能力。

11.6 事件检索

仅解码器的 LLM 复杂架构使其难以直接适配文本编码器任务。近期研究尝试修改 LLM 的固有机制以处理文本表示任务 [2]，但效率往往不足。受 [20] 启发，我们采用冻结整体模型并在编码器和解码器中添加可训练注意力层，再结合对比学习的方法，实现高效且高性能的检索任务。具体而言，首先在每个冻结编码器上添加注意力层，并在文本解码器中添加线性投影层，这些额外层可训练，旨在将模型的高维复杂度降至低维空间以实现更高效的对齐。随后应用对比学习 [5] 实现跨模态的深度语义对齐。训练轮次设为 3，其他参数与前期实验保持一致。如表 6 所示，我们提出的策略性能与 EventBind 相当，验证了 EventVL 框架的可扩展性。

12. 讨论 训练方法

本节探讨了我们方法中使用的各种训练策略，包括全量微调、LoRA [19] 和 LLM 适配器 [20]。LoRA 通常适用于计算资源有限和小数据集场景。我们最初尝试在小批量数据上使用 LoRA 训练框架，但发现其需手动调整的多参数增加了训练不稳定性风险。我们也未选择基于适配器的训练，因为适配器包含与原始模态绑定的可学习参数，可能限制模型性能。事件数据比传统相机数据承载更全面的场景信息 [37]，需要更大参数空间来充分捕获这些信息。鉴于我们拥有丰富的高质量配对数据，因此选择全量微调作为框架的主要训练方法。该方法有效捕获了基于事件的类别知识，支持对事件驱动的世界语义的深度理解。

数据规模

我们处理的数据集涵盖静态图像 [23,31]、人体动作 [40] 和驾驶场景 [16] 等多个领域，但在体育动作、复杂场景等领域数据仍不足，这限制了模型对事件数据的理解深度。尤其在驾驶领域，高分辨率事件数据依然匮乏，影响了事件相机与传统相机的感知清晰度及协同发展。为此，我们计划构建更大规模、更全面的数据集。此外，受计算资源限制，我们只能使用参数少于 30 亿的模型进行训练或微调。我们认为，所提出的框架可轻松扩展至更大参数规模的模型，以增强其事件理解能力。

事件表示

与当前视觉语言模型（VLM）设置 [25,46,48] 一致，我们使用红蓝颜色映射的事件表示进行处理和训练。尽管该方法有效，但对基于多模态大语言模型（MLLM）的框架可能并非最优。未来工作中，我们计划进一步研究不同事件表示 [41,50] 的影响，探索更能支撑框架性能的替代方案。

https://www.arxiv.org/pdf/2501.13707