哈喽,大家好,今天小墨这篇评论,主要来分析加州大学用强化学习让光学芯片直接从实验中学习,不再依赖计算机模拟训练。
光计算的游戏规则正在被改写。加州大学洛杉矶分校的研究人员不再试图在计算机里完美模拟光的行为,让光学设备像生物一样从真实世界的经验中学习。
这套发表在《光:科学与应用》期刊上的新框架,用强化学习直接在硬件上训练衍射光网络,绕开了困扰光计算领域多年的模型误差难题。
光学元件的制造偏差、环境噪声、器件老化,这些因素都会让精心调优的设计在实验室里大打折扣。
加州大学洛杉矶分校电气与计算机工程系主任教授艾多根·奥兹坎带领团队提出的解决方案简单粗暴,既然模拟不准干脆不模拟。他们采用近端策略优化算法,这是强化学习领域以稳定性著称的技术,让光学处理器直接从实测数据中摸索规律。
近端策略优化的精妙之处在于它的保守主义。这个算法不会像传统策略梯度方法那样激进地改变参数,是小步快跑,每次更新都限制在一个安全范围内。它还有个聪明的设计,同一批实验数据可以反复使用多次,大幅降低了对实验样本的需求。
这个特性对光学实验至关重要。每次测量都意味着调整空间光调制器、采集相机数据、处理图像,整个流程耗时且容易引入噪声。如果像传统方法那样需要成千上万次测量才能收敛,训练过程将变得不切实际。近端策略优化把样本需求压缩到可控范围,让现场训练成为可能。
研究团队用一系列实验验证了这套方法的威力。第一个测试场景是让光束穿过一个完全随机的漫射介质后聚焦到特定位置。这个任务的难点在于漫射器的光学特性太复杂,根本无法建立准确模型。
最引人注目的演示是手写数字分类任务。研究人员把MNIST数据集的图像输入到衍射光学处理器,然后用相机捕捉输出光场的强度分布。在训练初期,不同数字对应的输出模式混乱不堪,难以区分。
随着近端策略优化算法逐步调整衍射层的相位分布,每个数字类别的输出光斑变得越来越清晰,最终形成了可以直接读取的分类结果。
整个过程没有用到任何数字后处理,所有计算都由光的传播和干涉完成。这证明了复杂的机器学习任务可以完全在物理硬件上训练,不依赖数字孪生模型。更重要的是,这种训练方式天然适应了硬件的实际特性,包括所有制造缺陷和环境干扰。
奥兹坎对这项技术的前景充满信心,我们并没有试图完美地模拟复杂的光学行为,让设备从经验或实验中学习。这种方法可以扩展到光子加速器、纳米光子处理器、自适应成像系统和实时光学AI硬件。
这套方法的价值不仅限于光学领域。任何可以提供实时反馈并允许参数调整的物理系统都可以采用类似的无模型训练策略。
声学超材料、电磁超表面、量子处理器,这些系统同样面临模型不准确的困扰,强化学习提供了一条绕开这个障碍的新路径。
这项技术也不是没有局限。近端策略优化需要与物理系统频繁交互,对于响应缓慢或无法快速重构的硬件来说训练时间可能过长。
此外,强化学习的收敛性依赖于奖励函数的设计,如何为复杂的光学任务定义合适的奖励信号仍然需要人类专家的经验和直觉。
这个方向的潜力是显而易见的。当摩尔定律接近物理极限,电子芯片的功耗和速度遇到瓶颈时,光计算被寄予厚望。
衍射光网络可以用光速进行大规模并行运算,能效比传统芯片高出数个数量级。如果这些光学处理器能够像生物神经网络一样自主学习和适应,那么我们可能正在见证计算技术的又一次革命。
当光子开始思考如何更好地干涉和衍射时,我们距离真正的光学大脑又近了一步。这项技术将传统的"先建模后制造"流程彻底颠覆,变成了"边制造边学习"。
从手写数字识别到复杂光场控制,近端策略优化算法证明了物理硬件可以像生物一样从经验中成长。光计算的未来可能不需要完美的数字孪生,只需要给光子一个学习的机会。
热门跟贴