打开网易新闻 查看精彩图片

这项由韩国浦项科技大学计算机科学与工程系及人工智能研究生院联合开展的研究,于2026年4月发布在预印本平台arXiv,论文编号为arXiv:2604.06938。研究团队提出了一个名为POS-ISP的全新框架,专门解决相机图像处理流水线的智能优化问题。感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

每当你用手机拍下一张照片,在你按下快门到最终看到那张精美图片之间,相机内部其实经历了一段复杂的"后厨加工"流程。相机的感光元件捕捉到的原始数据,就像刚从田间采摘的新鲜蔬菜一样,虽然营养丰富,但直接端上桌并不美观——它需要经过清洗、切割、调味、烹饪等一系列步骤,才能变成你盘子里色香味俱全的菜肴。相机中负责完成这一系列加工的系统,就叫做图像信号处理器(ISP,Image Signal Processor)。

然而问题在于,不同的"用餐场合"需要不同的菜肴风格。为安保系统提供的图像需要目标识别清晰,为医疗影像提供的图像需要细节精准,为普通摄影爱好者提供的图像则需要色彩悦目。传统相机的ISP就像一家只会做固定套餐的餐厅,不管客人的需求如何,端出来的永远是同一道菜。这显然无法满足日益多样化的需求。

浦项科技大学的研究团队决定解决这个问题。他们设计的POS-ISP系统,像一位经验丰富的主厨一样,能够根据"这顿饭的目的"——比如是要识别图像中的目标物体、还是要分割场景中的各个实例、还是要美化照片——自动决定整套烹饪流程,并且把每个步骤的火候参数都调整到最优状态。

一、相机的"后厨流程"与它面临的困境

要理解这项研究解决了什么问题,先要搞清楚相机ISP到底是怎么工作的。相机感光元件产生的原始数据,专业上叫做RAW格式图像,它记录的是最原始的光线信息,就像一块未经雕琢的石头。要把这块石头变成一件精美的艺术品,ISP需要依次完成若干个加工步骤,比如白平衡调整(让白色的东西看起来是白色的,而不是偏黄或偏蓝)、降噪处理(去除因光线不足产生的颗粒感)、色调映射(调整明暗层次)、锐化或模糊处理等等。这些步骤的顺序和参数设置,共同决定了最终图像的质量。

传统的ISP就像一条固定的流水线,每块感光元件进来都走相同的工序,参数都是出厂前工程师手动设好的,几乎没有灵活性。对于追求特定效果的专业应用来说,这种"一刀切"的处理方式存在明显的短板。

近年来,研究者们开始探索用数据驱动的方法来优化ISP。其中,"模块化ISP"的思路特别受到关注,因为它保留了传统ISP各个独立处理模块的概念(比如白平衡模块、色调映射模块等),但允许系统自动决定选择哪些模块、按什么顺序排列、每个模块的参数设置为多少。这就像是把固定套餐改成了自选菜单,客人可以根据自己的口味点菜。

但问题又来了:这道"自选菜单"实在太复杂了。假设有10个候选模块,它们的排列组合数量是天文数字,而且每个模块还有自己的参数需要调节。更头疼的是,选择哪些模块组合这件事本身,是一个不可微分的离散决策问题——用普通话说,就是这个选择过程无法直接用反向传播(深度学习中训练神经网络的标准方法)来优化。

此前的研究主要沿着两条路走:一条是神经架构搜索(NAS),另一条是强化学习(RL)。神经架构搜索的方法,就像在搜索阶段把所有菜都同时放进锅里混炒(通过混合各模块输出实现可微分),然后在实际使用时只保留权重最高的那道菜。但这会产生训练和推理之间的不一致性——在训练时见过的"混合口味"和实际使用时的"单一口味"截然不同,导致性能损失。

强化学习的方法则像是让一个学徒厨师每做完一道工序就向师傅汇报,听取反馈后再决定下一步做什么。这种"逐步决策"的方式有两个大问题:首先,要准确预测"当前这一步对最终结果的贡献"极为困难,预测误差会像滚雪球一样越来越大,导致训练不稳定;其次,每次做决策都需要重新计算大量内容,计算开销极高。

POS-ISP的出发点,正是要同时解决这两个问题。

二、像一位导演那样,在开拍前想好全局

浦项科技大学团队的核心创意,是把"逐步决策"改成"一次性全局规划"。这就好比,之前的方法像是一个演员在拍电影时,每拍完一个镜头才决定下一个镜头怎么拍;而POS-ISP的思路则像是一位经验老道的导演,在开拍之前就已经在脑海中排演了整部电影的所有场景,形成了一个完整的拍摄计划,然后按照计划执行。

具体来说,POS-ISP将整个ISP模块序列的预测,转化为一个"序列级"的决策问题。系统一次性预测出完整的模块排列顺序,然后根据最终处理结果的好坏来调整策略。这样一来,评估的是整个流程的最终效果,而不是每一个中间步骤的局部表现,从而彻底避免了逐步估算未来收益所带来的不稳定性。

为了实现这个目标,POS-ISP设计了两个相互配合的核心组件:序列预测器和参数预测器。

序列预测器的任务,是决定"用哪些模块、按什么顺序排列"。它采用了一种叫做门控循环单元(GRU)的循环神经网络结构。可以把GRU想象成一位有着丰富经验和记忆力的助手——它在预测每一个模块时,不仅考虑当前的状态,还会把前面已经选择了哪些模块这一"上下文信息"一并纳入考量。举个例子,如果前面已经选择了"增加曝光"模块,那么接下来选择"降噪"还是"锐化",就会基于"已经增加曝光"这一前提来做出判断,而不是孤立地做选择。这种对模块间依赖关系的建模,是序列预测器的一大优势。

在序列预测器内部,每一步的工作流程大致如下:助手(GRU)接收上一步选择的模块编号,将其转化为一个向量(类似于把模块的"身份证号"翻译成助手能理解的语言),然后结合记忆中所有之前步骤的信息,更新自己的内部状态。基于这个更新后的状态,一个小型解码网络会预测出每个候选模块被选择的概率分布。系统从这个概率分布中抽样,得到这一步选择的模块,然后把这个选择传递给下一步,如此循环,直到系统预测出一个特殊的"结束"标记,宣告序列选择完毕。为了防止重复选择同一个模块,系统会在概率计算时把已选模块的概率强制清零。

序列预测器还采用了一种"温控抽样"策略。在训练初期,系统会设置较高的"温度",让概率分布更平缓,这意味着系统会更频繁地尝试各种不同的模块组合,相当于鼓励"探索未知领域";随着训练的推进,温度逐渐降低,概率分布变得更尖锐,系统越来越倾向于选择那些已经证明效果好的组合,相当于从"广泛探索"转向"重点利用"。训练完成后,在实际使用时,系统采用最简单的"贪心解码"策略,每一步都选择概率最高的模块,直接得出最优序列。

参数预测器的任务,则是决定每个被选中的模块应该以什么样的参数运行。它是一个轻量级的卷积神经网络,接收一张缩小到64×64像素的输入图像,提取图像的特征信息,然后通过一个解码网络,为所有候选模块预测出一套参数。最终,只有被选中的那些模块对应的参数才会被实际使用。

一个关键的设计决定是:参数预测器只根据输入图像来预测参数,而不把当前选择了哪些模块作为额外输入。研究团队发现,加入模块序列作为条件反而会让效果变差。这背后的直觉是:在训练过程中,序列选择策略处于不断变化的探索阶段,如果参数预测器同时依赖于一个不稳定的序列输入,学习过程会变得混乱;而仅凭图像输入,参数预测器能够专注地学习"什么样的图像需要什么样的处理参数",随着策略逐渐收敛到少数几个高效序列,参数预测器自然也学会了为这些主流序列提供合适的参数。

三、"奖励"与"惩罚":训练系统的学习机制

整个POS-ISP的训练过程,可以用强化学习的框架来理解。系统就像一个正在学习烹饪的学员,每次做出一道菜(处理一张图像),都会得到一个"评分",然后根据评分来调整自己的烹饪策略。

这个评分,也就是系统的奖励信号,被定义为ISP处理后图像的任务表现与处理前原始图像的任务表现之差,再减去一个惩罚项。换句话说,系统只有在处理后的图像让目标任务表现得更好时,才能得到正向奖励;如果处理反而让效果变差了,就会得到负向反馈。

以目标检测任务为例,这里使用的是预训练的YOLOv3检测器来计算检测损失,并且在ISP优化过程中冻结检测器的参数。系统的奖励就是"用原始图像跑检测器得到的损失"减去"用处理后图像跑检测器得到的损失"——损失下降得越多,说明ISP的处理越有帮助,奖励就越高。

惩罚项则是为了防止系统走极端。比如,系统可能发现把图像整体亮度调到极高或极低,在某些情况下恰好能让检测损失下降,但这样产生的图像实际上是过曝或欠曝的废片。惩罚项的具体形式是:当输出图像的平均亮度低于0.01或高于0.9时,施加额外的惩罚,从而把系统"约束"在产生合理图像的范围内。

在训练过程中,序列预测器和参数预测器交替更新。序列预测器使用强化学习中的REINFORCE算法进行更新,简单说就是:凡是能得到高奖励的模块序列选择,就提高这些选择的概率;凡是导致低奖励的选择,就降低其概率。参数预测器则直接通过反向传播最小化任务损失和惩罚项之和,这是常规的监督学习方式,比序列预测器的更新要稳定得多。

值得一提的是整个系统的设计哲学:序列是针对特定下游任务共享的(也就是说,面对某个具体任务,所有图像都走同一套模块序列),而参数则是针对每张图像个性化预测的。这种设计模仿了真实相机ISP的工作逻辑——相机的处理流程在硬件层面是固定的,但针对不同光线条件下拍摄的不同照片,处理参数会有所不同。这样的设计既符合实际部署需求(固定流程便于嵌入硬件),又保留了对不同图像的适应性。

四、实验结果:在多项任务中全面超越对手

研究团队在三个主要下游任务上对POS-ISP进行了评估:目标检测、实例分割和图像增强。此外,补充材料中还包含了深度估计任务的评估。

对于所有对比实验,团队都采用了相同的候选ISP模块集合,包含10个模块:曝光控制、伽马校正、色调映射、对比度调整、饱和度调整、去饱和处理、白平衡、降噪、锐化/模糊和色彩校正。竞争对手包括DRL-ISP、ReconfigISP和AdaptiveISP,此外还与相机内置ISP产生的图像进行了对比。

在目标检测任务中,实验使用的是LOD数据集,这是一个专为低光照目标检测设计的真实场景数据集,分为正常光照和低光照两个子集。检测器采用在COCO数据集上预训练的YOLOv3,在优化过程中检测器参数不更新。结果显示,在低光照子集(LOD-Dark)上,POS-ISP在多个评估指标上均超过了此前最强的AdaptiveISP:mAP@0.5:0.95从47.2提升到47.8,mAP@0.5从71.4提升到72.1,mAP@0.75从51.7提升到52.8。在全数据集(LOD-All,混合了正常光照和低光照图像)上,提升幅度类似。值得注意的是,相机内置ISP的表现甚至不如直接使用原始预处理后的RAW图像,说明相机自带的处理方式对目标检测任务并不友好,而所有任务驱动的ISP方法都对这一局面有所改善,其中POS-ISP的改善幅度最大。

在实例分割任务中,情况更能体现POS-ISP的优势。实例分割是一个比目标检测更精细的任务,需要精确标注每个物体的像素级轮廓,而不仅仅是用矩形框圈出来。实验使用LIS数据集,检测器为在COCO上预训练的YOLOv11-seg。在低光照子集(LIS-Dark)上,POS-ISP的mAP@0.5:0.95从AdaptiveISP的25.2大幅提升到32.1,mAP@0.5从42.3提升到51.8,提升幅度相当显著。有趣的是,在这个任务上,不少对手方法的表现甚至不及直接使用原始RAW图像——这说明实例分割对图像处理的质量要求极高,不当的处理反而会损害性能,而POS-ISP是所有方法中唯一实现了稳定且显著提升的方案。

在图像增强任务中,实验使用Adobe FiveK数据集,目标是让ISP产生的输出图像尽可能接近专业修图师(专家C)的处理结果。任务损失定义为均方误差(MSE)。定性结果显示,DRL-ISP虽然能提亮图像,但很多区域仍然曝光不足;ReconfigISP能改善亮度,但色调过于饱和,偏离了目标风格;AdaptiveISP存在明显的色彩和白平衡偏差;而POS-ISP的输出在亮度、色调和细节上都与专家修图结果最为接近。定量指标同样印证了这一点:PSNR达到23.11(对比AdaptiveISP的22.73),SSIM达到0.923(对比0.908),LPIPS降低到0.097(对比0.105),全面领先。

在深度估计任务的补充实验中,使用KITTI数据集和SC-SfMLearner作为深度预测的监督来源。POS-ISP在绝对相对误差、平方相对误差、均方根误差、对数均方根误差以及精度指标等多个维度上均优于所有对比方法,说明POS-ISP的优势不局限于特定类型的视觉任务。

五、稳定训练与极低计算开销:两项关键优势

除了任务性能的提升,POS-ISP还在训练稳定性和计算效率两个维度上展现出明显优势,而这两点对于实际部署来说至关重要。

在训练稳定性方面,研究团队绘制了POS-ISP和AdaptiveISP在训练过程中的任务性能曲线。POS-ISP的性能曲线稳定上升,几乎没有明显波动;而AdaptiveISP的曲线则存在明显的抖动,或者在早期阶段进展迟缓。研究团队还观察了POS-ISP策略的内部状态:随着训练推进,策略的"熵"(可以理解为策略的不确定性或多样性)持续降低,说明系统对模块选择越来越有把握;与此同时,最终选定流程的概率相对于初始状态增长了大约20到60倍,说明策略确实有效地收敛到了高质量的解。

通过三组不同随机种子的对照实验,进一步验证了这种稳定性:POS-ISP在所有三次独立训练中都保持了相当一致的高性能,且标准差远小于DRL-ISP和AdaptiveISP,说明结果具有良好的可重复性。相比之下,基于演员-评论家(actor-critic)框架的对手方法(包括DRL-ISP和AdaptiveISP),其内部的"评论家网络"(负责估算未来收益的组件)的损失曲线呈现出明显的振荡和尖峰,这正是POS-ISP所避免的不稳定来源。

在计算效率方面,对比结果令人印象深刻。在参数量上,DRL-ISP需要657万参数,AdaptiveISP需要718万参数,而POS-ISP只需要53万参数,大约是前两者的1/13到1/14。在计算量(MACs,乘加操作次数)上,DRL-ISP需要1.553亿次,AdaptiveISP需要7020万次,POS-ISP只需要1510万次。在峰值GPU显存占用上,DRL-ISP需要1013.9MB,AdaptiveISP需要39.6MB,POS-ISP只需要14.4MB。在推理时间(不含模块执行时间)上,DRL-ISP需要15.71毫秒,AdaptiveISP需要12.72毫秒,POS-ISP只需要1.55毫秒。

这种效率差异的根本原因在于:DRL-ISP和AdaptiveISP在构建ISP流程时,每一步都需要重新运行控制器网络,是一个反复执行的迭代过程;而POS-ISP一旦通过训练确定了最优序列,在实际使用时只需要运行一次参数预测器,不再需要重新执行序列预测步骤,彻底消除了迭代开销。

研究团队还在三星Galaxy S10手机的CPU上进行了实测,在不使用量化或硬件加速的条件下,POS-ISP(配合运行时惩罚策略得到的短序列版本)每张图像的端到端处理时间约为32.4毫秒,约合每秒处理30.86帧,而AdaptiveISP在同样条件下需要115毫秒,约合每秒8.7帧。这意味着POS-ISP在移动设备上的处理速度是AdaptiveISP的约3.6倍,已经能够支持实时或接近实时的处理需求。

六、深入分析:序列预测器与参数预测器的设计验证

研究团队还通过一系列消融实验,验证了各个设计选择的合理性。

关于序列预测器的设计,团队构建了一个替代版本:用一张可学习的概率表来替代GRU,其中表的第i行第j列记录的是在第i步选择第j个模块的概率,每步决策完全独立,不考虑历史上下文。结果显示,GRU版本在LOD-Dark目标检测任务的mAP@0.5:0.95上得到47.8,概率表版本只有47.5;在LIS-Dark实例分割任务上,GRU版本为32.1,概率表版本为31.3。这说明捕捉模块间的上下文依赖关系确实有助于找到更好的序列组合。

关于参数预测器的设计,团队对比了"仅依赖图像"和"同时依赖图像与序列"两种条件设置。结果显示,仅依赖图像的版本不仅平均性能更高,而且跨不同随机种子的方差也更小,说明加入序列条件反而引入了干扰,而仅凭图像的设计反而更加稳定高效。

关于流水线长度的影响,研究团队对比了固定长度(与AdaptiveISP对齐,固定5步)和动态长度(最长允许10步)两种设置。即便在固定5步的条件下,POS-ISP也超过了同样固定5步的AdaptiveISP,说明性能提升来自序列级优化策略本身,而非单纯依赖更长的处理链条。允许动态长度后,性能进一步提升,为系统提供了额外的灵活性。

研究团队还通过跨任务序列迁移实验,验证了任务适应性序列设计的重要性。他们把分别针对图像增强、实例分割优化的序列,用于目标检测任务(只重新训练参数预测器,序列固定不变)。结果发现,即使参数经过重训,用其他任务优化的序列在目标检测上的表现仍然明显低于用目标检测任务直接优化的序列。这说明ISP模块的排列顺序本身就蕴含了任务偏好信息,无法通过参数调整完全弥补,因此针对每个任务独立搜索序列是必要的。

此外,通过跨光照域的参数迁移实验,研究团队还验证了参数预测器的图像适应性。将从正常光照图像估算的参数应用于低光照图像时,性能明显下降;反之亦然。参数的直方图分布也显示,针对低光照和正常光照图像预测出的曝光、色调等参数存在系统性差异,说明参数预测器确实在根据图像的光照特征做出有意义的适应性调整,而非输出与输入无关的固定参数。

七、运行时灵活性与局限性

研究团队还探索了一种引入运行时惩罚的训练变体。在默认设置下,POS-ISP倾向于生成较长的处理序列(平均约10步),虽然效果更好,但端到端执行时间较长。通过在奖励函数中加入对序列长度的惩罚项,系统会倾向于生成更短的序列(平均约3步),端到端处理时间大幅缩短,同时任务性能仅有微小的损失。这为实际部署提供了灵活的效率-性能权衡机制。

当然,POS-ISP也存在一些局限性。随着候选模块数量的增加,搜索空间会指数级膨胀,收敛所需的训练时间也会相应增长。另外,当前框架需要为每个下游任务单独训练一套系统——针对目标检测训练一个,针对实例分割训练另一个——如果需要同时支持多个任务,系统的总体复杂度会成倍增加。研究团队在论文末尾指出,未来工作的一个重要方向,是探索能够同时优化多个任务的统一框架,从而提升系统的可扩展性和通用性。

归根结底,POS-ISP做的事情,就是把"相机后期处理"这件需要人类专家花大量时间手动调试的工作,交给了一个能够从整体视角思考、一次性规划全局的智能系统。这个系统不仅比以往的自动化方法效果更好,所需的计算资源也大幅减少,甚至能在几年前的旧款手机上实现接近实时的运行速度。

对于普通用户来说,这项研究的意义在于:未来的手机或相机,可能真的能够根据你当时的拍摄目的——是要识别街道上的车牌、还是要拍一张漂亮的风景照、还是要为安防系统提供清晰的监控画面——自动调整内部的图像处理策略,而不是一成不变地应用出厂时写死的固定流程。

有兴趣深入了解这套方法的技术细节的读者,可以通过arXiv编号2604.06938查阅完整原文,或访问研究团队提供的项目页面获取更多信息。

Q&A

Q1:POS-ISP和普通手机相机内置的ISP有什么区别?

A:普通手机相机内置的ISP是出厂固定的,处理流程和参数几乎不会根据拍摄用途变化。POS-ISP则是一个能够根据特定任务需求自动搜索最优处理模块组合和参数的系统。实验结果显示,相机内置ISP在目标检测等机器视觉任务上的表现,甚至不如直接使用未经额外处理的原始图像,而POS-ISP能显著提升这些任务的性能。

Q2:POS-ISP的训练为什么比之前的强化学习方法更稳定?

A:之前的强化学习方法在每完成一个处理步骤后,就需要估算"这一步对最终结果的贡献",这种中间估算极容易积累误差、造成训练抖动。POS-ISP改为一次性预测完整的模块序列,然后直接用最终输出的任务表现来评估好坏,彻底绕过了中间步骤的估算问题,从根本上消除了这种不稳定性的来源。

Q3:POS-ISP在手机上运行的速度怎么样?

A:在三星Galaxy S10手机CPU上,使用加入运行时惩罚策略训练的POS-ISP,端到端处理每张512×512图像只需约32.4毫秒,约合每秒30帧,已经接近实时处理水平。相比之下,同样在这台手机上,此前最强的对比方法AdaptiveISP需要115毫秒,每秒只能处理约8.7帧。