给大自然重开一局：平行世界的人类会长出怎样的眼睛？|大自然|平行世界|自然界|视觉|透镜

演化留给我们的身体构造中，哪些是必然，哪些是偶然？Science advance上的一项来自MIT媒体实验室、隆德大学等机构的研究，构建了一个融合物理仿真、深度强化学习与遗传算法的框架，让虚拟智能体在“数字化的自然选择”中，重新走了一遭视觉演化的路。这项研究，为我们推开了一扇窥探造物主图纸的新窗口，它试图回答“我们的眼睛，为什么偏偏长成了今天这副模样？”

▷Tiwary, Kushagra, et al. "What if eye...? Computationally recreating vision evolution." Science Advances 11.51 (2025): eady2888.

https://www.science.org/doi/10.1126/sciadv.ady2888

一场场"数字寒武纪"的演化实验

如果视觉仅用于导航会怎样？如果眼睛从未演化出晶状体之类的光学元件会怎样？如果动物的大脑在整个演化历程中始终保持小巧会怎样？（图1a-c）

这三个"如果"，戳中了演化生物学的核心困境：我们只能观察已经发生的历史，却无法实验那些未曾选择的路。

自然选择用数亿年时间，让生物的眼睛有了光感斑点，复眼、针孔眼及相机眼的惊人多样性。每一个现存的视觉系统，都是多重约束、多重任务、多重历史偶然性叠加的唯一解。

然而，如果生存的筹码发生改变，生命的形态又将如何重塑？仅仅依靠比较当下已有的生物，很难回答这样的“反事实“问题。但如果真有一种工具，能让我们模拟演化未曾涉足的平行宇宙呢？通过算法在硅基世界中重构演化的动力学法则（即突变、选择与适应），我们便能亲眼目睹那些非凡的眼睛是如何在代码中长出来。这种虚拟的演化推演，不仅能让我们系统地检验形态、神经处理与环境压力之间的隐秘羁绊，更能指导未来的具身AI，去探索那些连大自然都未曾尝试过的视觉设计。

▷图1：计算演化的人工智能智能体揭示了环境压力如何塑造了自然视觉的演化。

为了容纳这场数字造物，研究者建立了一个名为“演化沙盒”（Evolutionary Sandbox）的仿真系统，其架构包含了三个关键部分：每一个经历演化的具身智能体拥有一个可变形的“头部”，其上感光器的多寡、阵型的排列、乃至晶状体（Lens）的有无，都是可演化的参数。而在头颅深处，潜藏着一个简单的感知器或深度网络，负责将视觉输入转化为动作指令（如移动、旋转）。

在沙盒中，具身智能体将在不同光强下生存并寻找食物，区分物体形状。而在沙盒之外， “遗传算法”充当了自然选择的镰刀。每一代表现最好的智能体（获取食物最多、避障最稳）会获得繁衍机会，其“虚拟眼部的状态数”和“处理视觉数据的神经网络权重”会有一定概念发生变异并传递给下一代。

自然界中，演化与学习并非独立过程，而是通过鲍德温效应（Baldwin Effect）相互耦合。为了复刻这种生命的张力，虚拟生物虚拟生物的成长周期被拆分为内外双环：内循环采用“深度强化学习”，模拟个体在短暂一生中的后天适应；外循环则依靠“遗传算法”，模拟种群在漫长世代中的演化更迭（图1d）。具体来说，研究中智能体的基因型并不直接编码某种刻板的行为，而是编码一种“可学习的潜力”。这对应生物学的底层逻辑：基因从不事无巨细地规定每一根神经突触的权重，它只负责勾勒发育的蓝图与网络架构。而外循环也并不直接评估基因型的"静态优劣"，而是评估该基因型经过学习后能达到的最佳性能。

具身智能体的基因型（图1e），编码了智能体视觉系统的形态（眼睛数量、位置、朝向、视场角），光学特征（瞳孔大小、光学元件、折射率）及神经表征算法（网络架构、参数量、记忆长度）。这些独立的可变基因可以对反映自然视觉演化路径的演化路径进行计算探索。

而具有经过强化学习获得各类视觉系统的智能体，将需要在仿真环境中执行导航，检测及追踪三类任务（图1f），用视觉检测为自身带来演化优势。为了隔离单一演化压力，研究设计了三个极简但物理真实的任务。

导航（Navigation）：在迷宫中快速移动+避障，奖励=前进距离-碰撞惩罚；
检测（Detection）：在三个外观相似的球体中识别仅纹理旋转角度不同的食物，奖励=接近目标-误触毒物；
追踪（Tracking）：考察视觉系统应对目标与干扰物随机运动，对结果进行时空整合能力。

这些任务分别对应视觉的三大基础功能：空间定向、物体识别、运动追踪。通过控制变量，研究者可以观察到当生存的唯一压力是导航时，眼睛会怎么长？当生存迫切需要精细的分辨率时，光学系统又会如何响应？

图1d中的双循环系统实际上是在进行分层优化。外循环解决"长时尺度的结构创新"，内循环解决"短时尺度的行为适应"。这种分工符合生物演化逻辑。在这个沙盒中，研究中的视觉系统，其光学像差、光通量、分辨率都受物理定律约束。演化必须在"收集更多光"和"获得更清晰像"之间做权衡，这同样模拟了生物眼睛面临的核心挑战。

任务驱动眼睛向某个方向特化

如果视觉只服务于单一功能，不同任务会塑造出怎样的眼睛？为了回答上述问题，研究者让具身智能体从1只眼睛，1个感光单元，45°视场角（演化起点的光感斑点）开始演化（图2a）。

然后，在导航任务组和检测任务组中，分别允许形态基因突变（增加/减少感光单元、增加/减少眼睛、调整位置），观察50代后的收敛结果。

▷图2：不同的任务导致了演化出不同类型的眼睛

结果显示，高精度导航需要快速感知周围环境变化，而非精细识别物体。于是，虚拟演化出的分布式低分辨率采样+并行神经处理，是能效最优解（图2b）。这种演化结果，类似捻翅目昆虫（Strepsiptera）的"眼点眼"——每个小眼含多个感光细胞，形成"块状"而非"像素式"采样。

而检测组的物体识别，需要高空间频率信息，要将感光资源集中于前方，配合更大神经处理带宽，才能在有限时间内完成精细分类。虚拟演化的结果更接近脊椎动物相机眼，或是头足类眼睛的前向高分辨区域（图2c）。

当环境的唯一奖赏是“成功避障”时，演化不会浪费资源发展高分辨；当需要"识物"时，前向聚焦成为必然。这场硅基世界中的数字推演，为功能决定形式的演化假说提供了计算证据。这解释了为什么深海生物往往拥有巨大的、感光极其灵敏但空间分辨率极低的眼睛，而鹰等捕食者则演化出了极高的空间分辨率。

如果眼睛能弯曲光线呢？

在生命演化的早期，视觉系统始终被困在一个物理囚笼里：如何兼顾“光线的捕获”与“成像的清晰”？从简单的光敏斑点发展到杯状眼睛，其孔径（类比相机的光圈）变得更小。小孔径时成像清晰（高空间精度），但由于进光量少，信噪比低，它会在暗处失效。反之，大孔径进光多，信噪比高，但成像模糊。

对此，生物的解决方案是通过透镜让光弯曲。在模拟演化中，研究者在第30代解锁光学基因突变权限（允许演化透镜形状与折射率，即出现晶状体，图3a）。在权限解锁的初期，智能体的生存性能开始短暂下降（毕竟，随机生成的劣质透镜往往只会扭曲现实，带来灾难）。但随后，演化产生了凸透镜，让具身智能体的视觉系统能够拥有大孔径与高锐度（图3b，c）。

▷图3：计算演化揭示了透镜成像如何解决视觉的基本权衡问题。

实验证明，一旦基因突变撕开光学参数的封印，哪怕没有任何预设的终极目标，精妙的透镜结构也会在生存中自发涌现。

上述晶状体的演化，本质上是对"光-精度权衡"的帕累托改进。演化压力下，那些原始针孔眼会被历史淘汰，只有在那些节奏缓慢、光照极其充沛的温室环境中，它们才更可能得以保留。晶状体出现后，通过折射重构了视觉系统的演化空间，让系统能同时拥有大孔径与高锐度。新光学机制（凸透镜）的出现，是演化在物理约束+任务压力下的必然解。

在模拟演化实验中，透镜的出现并非渐进的，而更像是一种相变。当感光器密度增加到一定程度，由于光波衍射带来的物理模糊，再增加感光器也无法提高清晰度。此时，压力积累导致形态发生突变——演化出具有聚焦能力的透明介质（透镜）。透镜的出现瞬间打破了模糊天花板，让视觉精度实现量级跨越。

一个通用的幂律缩放：

视觉越敏锐，处理视觉的神经网络越大

视觉系统不止是感光元件，还包括处理视觉信号的神经网络。在生物演化与人工智能设计中，我们始终面临一个核心问题：性能的提升究竟依赖更清晰的眼睛（视觉敏锐度）？还是更大的神经容量？亦或是更长的记忆（时间整合）？

直觉告诉我们，三者都很重要。但在资源有限（演化能量约束或芯片功耗约束）的情况下，它们之间是否存在替代关系？是否存在瓶颈效应？

模拟演化显示，对于低难度任务，演化后的智能体的感光器数量较少，且很快达到饱和。而为了应对需要获取足够的信息熵才能完成的高难度任务，演化过程驱动感光器数量显著增加。这说明眼睛的分辨率不是越高越好，而是由生存任务的计算需求决定的。生物不会无限制地追求高清视觉，因为那意味着巨大的代谢负担。

该研究考察了视觉敏锐度，神经网络参数量（10³~10⁶）与时间记忆（输入帧堆叠长度）之间的变化关系。结果显示：如果眼睛的分辨率提高一倍，对应的神经网络规模需要呈非线性增长才能消化这些信息。

当视觉敏锐度本身就是个半瞎的残次品时，你就算往大脑里疯狂堆砌再多的神经参数，也绝无可能捅破性能的天花板。唯有当神经网络的容量与视觉输入的敏锐度完美契合那道冷酷的幂律法则时，智能体在导航、检测与追踪这三大生死试炼中的误差，才会相应降低。这意味着没有足够多的感官输入，处理视觉信息的神经网络将巧妇难为无米之炊（图4a-c）。而精打细算的大自然，绝不会容忍任何算力的挥霍。如果你没有一颗足够强悍的大脑去解码高清的图像，那么演化出一双鹰眼，不过是在自寻死路。

此外，沙盒还揭示了一条残酷的视觉需求阶梯：检测任务对敏锐度的渴求>追踪>导航（图4a-c）。随着猎物和食物来源越来越难以探测和辨别，自然演化的武器竞赛加剧了视觉系统的处理需求。而在追踪等关注视觉动态的任务中，演化还留了一手底牌：增加时间记忆的长度，可以在一定程度上弥补神经容量的先天不足（图4d，e）。

▷图4：任务依赖的幂律规律揭示了视觉敏锐度的极限如何影响性能，以及时间记忆如何补偿神经容量。

这对应到生物学中，高视觉敏锐度物种（鹰、灵长类）确实拥有更大视觉皮层。对于深度学习，上述幂律定理意味着，模型性能同时依赖数据质量（感官输入）与模型规模（神经容量），在盲目堆砌万亿参数之前，请先确保你喂给它的，是足够纯粹的高清输入。此外工作记忆可缓解瞬时感知限制。

归根结底，视觉演化是一场关于信息获取成本与生存收益的博弈。上述发现量化了“感知硬件”（眼睛）与“软件算法”（大脑）之间相辅相成的关系。这解释了为什么自然界中既有简单的眼点，也有复杂的相机眼，其实每种设计都是在其生态位任务下的最高性价比方案。

跨学科启发

光、物理约束、能量消耗，这几条简单的物理规则，经过千万次的迭代，最终在算法的模拟演化中，诞生了类似地球生物的多种视觉系统。借助计算演化的研究方法，我们能回答反事实问题，甚至为演化增加额外的维度，如果给AI智能体强加一项社交任务，它们是否会为了眉目传情，而演化出带有绚丽虹膜的眼眸？演化是否会因为环境的极端化（如纯黑暗）而彻底抛弃视觉？这些“What if”问题，如今都已在代码的推演中，触手可及。

过去我们研究视觉，是把眼睛当成一个固定的摄像机。而更合适的视角是让感知系统与身体、环境是耦合在一起的演化整体。这种“具身化”的视觉观，为解释生物多样性提供了定量工具。文中的框架，可以扩展到更多的视觉任务，甚至其它感官的研究中。未来，可以考虑生物在自然环境中，需要应对的不止是导航，检测及追踪某一类任务，而是在其生物周期内的不同时间段之内，用到所有三类任务时，智能体如何权衡互相冲突的需求。

目前的计算机视觉（CV）大多基于标准化的相机传感器。这项研究暗示，对于特定的工业机器人或无人机，我们不应该使用通用的摄像头，而应该根据其任务（如高速避障或微小瑕疵检测），模仿演化过程，为其定制化演化出最匹配的传感器形态和后端算法。

在视觉处理的早期阶段，生物眼睛通过物理形态（如黄斑区的非均匀采样）在物理层就完成了“数据降维”。这种预处理机制可以减少神经系统需处理的数据，从而在神经网络容量不增加的前提下，更好地利用上述缩放定理来优化视觉处理系统的性能。这启示我们，与其追求更强的GPU处理海量像素，不如在传感器端通过物理演化来过滤无效信息。