打开网易新闻 查看精彩图片

拍摄者:高千惠、何逸铭、尚可可

导语

在低空飞行物实时定位领域,如何在无外部参照、无姿态测量的条件下实现高精度三维坐标识别,始终是制约无人机监管与反制技术发展的核心瓶颈。传统视觉定位方法或依赖昂贵的惯性测量单元(IMU)和精密标定设备,或受限于单帧图像的几何歧义,在复杂气象条件下难以保持鲁棒性。2026年3月发表于Communications Engineering的这项研究,提出了一套融合非线性时间序列分析与代数拓扑的实时定位框架。该框架将物理信息嵌入YOLOv12视觉检测,并引入奇异值分解(SVD)实现2D到3D的几何重构,仅需三台手持设备即可在强干扰环境下完成地心大地坐标的精确解算。这项工作为低空安防提供了高效解决方案,也为人工智能前沿算法与传统应用数学的深度结合提供了可行路径,对复杂系统建模具有推广价值。

关键词:物理信息神经网络(Physics-informed Neural Networks),奇异值分解(SVD),三维大地测量定位,非线性时间序列分析,低空飞行物追踪,无姿态测量,复杂系统建模

何逸铭丨作者

靳子璇丨审校

打开网易新闻 查看精彩图片

论文题目:Bridging mathematical modeling and AI for 3D coordinate recognition of moving objects without external reference and attitude measurement 论文链接:https://www.nature.com/articles/s44172-026-00648-x 发表时间:2026年3月20日 论文来源:Nature·Communications Engineering

无外部参照场景下的定位难题

如何在没有GPS信号、没有预置标定物、没有姿态传感器的拒止环境中仅凭几台普通相机精准捕捉无人机黑飞、突然出现的飞鸟等非合作目标的三维轨迹,不仅是低成本城市低空安防的迫切需求,也是复杂系统建模领域的基础科学问题。

近年来,深度学习为视觉感知带来了革命性突破。YOLO系列模型能以毫秒级速度完成目标检测,为实时应用提供了可能。然而,将2D图像坐标转换为3D世界坐标,始终面临两个难以调和的矛盾。

首先是精度与极简的矛盾。传统摄影测量方法依赖对极几何和迭代优化,需要精确的相机内外参标定,且对单帧误检极度敏感,任何飞鸟掠过或光线反射都可能导致系统崩溃。纯数据驱动的深度学习方法虽然端到端便捷,却缺乏物理可解释性,在未见场景下泛化能力堪忧。

其次是静态与动态的矛盾。现有方法多将视频流视为独立图像的集合,通过单帧几何关系反推三维坐标,忽略了时间维度上的运动连续性。这种离线思维在气象条件恶劣、目标机动性强时,往往力不从心。

正是在这样的背景下,南京大学计算传播学实验中心的尚可可副教授与西澳大学复杂系统中心的Michael Small教授合作,提出了全新的实时定位框架。其核心设计理念可以概括为物理约束、代数重构、时序融合三个关键词。

融合物理约束与代数重构的新框架

该框架的工作流程分为两个精密配合的阶段:

第一阶段:基于物理直觉的感知处理。

传统YOLO检测仅依据单帧图像进行判断,容易将相似的静止物体或者其它飞行物体等误判为真实目标。而该框架创新性地为YOLOv12植入了时间序列TS模块,利用非线性动力学中的相空间重构思想,通过分析目标自身的物理速度及其在过去时间步长的演化轨迹,建立其运动的流形结构。

当新的观测数据进入时,算法并非简单接受像素坐标,而是判断该点是否符合既有的动力学流形。如果某帧检测位置违背了物理惯性或运动连续性,例如偏离吸引子轨道,TS模块会将其识别为系统噪声并剔除。这种基于动力学的清洗机制赋予系统极强的抗干扰能力,即使在体育场遭遇极端气象条件,仍能保持稳定追踪。

第二阶段:基于SVD的代数解算。

在获得高纯度时序数据后,再利用奇异值分解(SVD)从多视角时序数据中估计相机间的相对位姿,并进一步求解相似变换矩阵,实现世界坐标系下的高精度3D定位。

打开网易新闻 查看精彩图片

图1 2D到3D转换框架。该框架首先使用卷积神经网络进行基于人工智能的2D检测,以获得捕获图像中对象的2D坐标时间序列。然后利用时间序列和速度的物理特征对这些坐标进行精化。核心方法利用时间序列和奇异值分解来估计摄像机的相对位姿。进一步采用基于奇异值分解的方法计算相似变换矩阵,推导出摄像机到世界坐标系的坐标变换,最终实现世界坐标系中的三维大地测量定位。

这种方法的颠覆性在于实现了无姿态测量。系统完全摒弃IMU等外部传感器,仅凭视觉观测的时间演化规律,便完成了对三维姿态的代数重构。配合后端轻量级的光束法平差Bundle Adjustment,系统在保证实时性的同时,达到了理论上的全局最优解。

性能验证:从仿真到真实场景

研究团队设计了从虚拟到现实、从理论到工程的完整验证链条,将新框架与基线方法进行了正面交锋。

数值模拟:理论精度测试

在正式走向野外之前(如图3),研究团队首先在200×200×100m的虚拟3D空间中进行了严格的数值模拟。三台地面相机以120°间隔布设,观测一段由15个控制点定义、经三次样条插值至900帧的螺旋上升轨迹。在Phase I-Batch Initialization积累300帧后,Phase II-Online Tracking进行实时坐标识别。

打开网易新闻 查看精彩图片

图3 双阶段验证的模拟场景

结果令人振奋:在零噪声理想条件下,系统的RMSE仅为7.8×10⁻³m,MAE为7.6×10⁻³m,R²几乎为1。这一近乎完美的精度证明,基于SVD的代数重构在理论上是精确且自洽的,误差仅来源于计算机数值求解的固有近似。这一结果表明SVD代数重构方法在数学层面具有极高的精度。

真实世界:恶劣天气下的性能检验

研究团队在南京大学仙林校区第一体育场开展无人机实地实验,测试区域为100×100×30m。值得注意的是,为了验证系统的鲁棒性,团队特意选择了雨天、光照严重退化的恶劣天气条件下采集的飞行视频作为测试集,这正是传统视觉方法最容易失稳的场景。

打开网易新闻 查看精彩图片

图5 无人机三维坐标实时识别实验示意图。(A)数据预处理:采集三个摄像头拍摄的无人机飞行图像,按8:2的比例分为训练集和测试集。(B)YOLOv12模型训练:用在各种场景中捕获的无人机图像训练集来训练基于YOLOv12框架的无人机检测模型。(C)基于YOLOv12的无人机预测:训练好的模型用于预测三个摄像头捕获的视频中无人机的包围盒,这些原始的每帧输出可能仍然包括漏检和误检。(D)YOLOv12-TS:使用我们提出的双阶段YOLOv12-TS改进预测的无人机探测:第一阶段适用于轨迹完成和异常值拒绝;第二阶段仅适用于异常值拒绝。(E)第一阶段:批量初始化:使用精化的2D坐标时间序列来估计相机姿势,为3D坐标识别做准备。(F)第二阶段:在线跟踪:通过奇异值分解三角测量和相似性变换进行实时三维坐标识别。根据无人机机载定位设备提供的地面真实3D坐标数据来评估重建的轨迹。使用的度量是RMSE、MAE、最大误差和R平方。

实验结果图5、图6表明,在仅使用三台普通相机、无任何外部参照和姿态测量设备的配置下,系统取得了以下结果:RMSE:5.45 m、MAE:4.83 m、R²:0.91。

打开网易新闻 查看精彩图片

图6 使用X、Y和Z轴上的地面真实数据对无人机3D坐标识别结果进行评估。该图分为三部分:(A)显示无人机3D坐标沿X轴的偏差,(B)沿Y轴的偏差,以及(C)沿Z轴的偏差。红色实线表示从识别过程中获得的无人机3D坐标,而黑虚线表示由机载定位设备提供的相应地面真实无人机3D坐标。

其中代表高度的Z轴定位精度最高,为RMSE 1.66 m,R² 0.98;X轴次之,达到RMSE 2.55 m,R² 0.93;Y轴受限于基线几何布局,误差相对较大,仅为RMSE 4.52 m,R² 0.80,但整体轨迹与机载GNSS真值高度吻合。

后端优化的关键作用

如表3,消融实验进一步验证了Bundle Adjustment后端的价值。

打开网易新闻 查看精彩图片

表3 展示BA后端优化的消融实验结果。RMSE:均方根误差(M);MAE:平均绝对误差(M);R2:R-平方(决定系数)。“w/o BA”:不带束调整(仅限SVD);“w/BA”:带背景束调整细化。

以YOLOv12为前端检测器时,纯SVD方法的RMSE为6.30 m,R²为0.87;而引入滑动窗口BA优化后,RMSE降至5.45 m,R²提升至0.91。这一提升在Y轴和整体轨迹上尤为明显,证明BA能有效抑制长时飞行中的累积漂移。

打开网易新闻 查看精彩图片

表4 仿真和无人机实验的运行时性能。所有计时结果在10次重复运行中取平均值。实时系数以帧间隔与30 FPS的每帧延迟之比计算。

如表4,在实时性能方面,Phase I的批量初始化在2000帧数据上耗时仅0.33秒;进入Phase II后,单帧3D坐标识别的延迟仅为0.039毫秒,约为30 FPS视频帧间隔的1/850。这意味着系统不仅能精确计算,还能实时跟踪,满足工程现场的实时性需求。

结论与展望

数学与AI的深度融合,能否在极简硬件条件下实现传统方法难以企及的定位精度?论文通过数值模拟与真实场景的双重验证,给出四个相互支撑的核心结论。

第一,理论精度可接近机器极限。在200×200×100 m的虚拟3D空间中,基于SVD的2D-3D坐标转换在理想条件下实现了RMSE仅7.8×10⁻³ m、R²几乎为1的精度,误差仅来源于计算机数值求解的固有近似。这证明SVD代数重构在数学层面是精确且自洽的。

第二,工程场景下的鲁棒性得到充分验证。在南京大学体育场雨天的恶劣光照条件下,仅使用三台普通智能手机相机,系统实现了RMSE 5.45 m、MAE 4.83 m、R² 0.91的三维定位精度,Z轴精度更是达到RMSE 1.66 m、R² 0.98。这意味着消费级设备在极端环境下也能完成可靠的大地测量定位。

第三,实时性能远超工程需求。Phase II在线跟踪的单帧处理延迟仅为0.039 ms,约为30 FPS视频帧间隔的1/850,实时系数超过800倍。配合后台Bundle Adjustment的滑动窗口优化,系统在长时间飞行中仍能有效抑制累积漂移。

第四,方法具有模型无关的普适性。如表2,时间序列模块对YOLO v8至v12的所有版本均带来性能提升,且物理信息门控与轨迹补全机制可被即插即用地集成到任何现有检测框架中,无需重新训练主干网络。

打开网易新闻 查看精彩图片

表2 在三个摄像头视图中使用和不使用时间序列(TS)模块的YOLO变体(V8-V12)的综合基准。该表详细说明了IOU加权精度(IOU-P)、召回(IOU-R)和F1-Score(IOU-F1)。改进(∆)表明TS模块实现了性能提升。

一个无需外部参照、无需姿态测量的实时混合3D定位框架,可在诸多场景中大展身手。在低空经济监管中,它可以作为核心感知引擎,实时追踪未报备飞行物;在应急救援中,它能为无人机集群提供拒止环境下的相对定位基准;在生态保护中,它有望以非侵入方式追踪鸟类等野生动物的迁徙轨迹;在基础科研中,它为复杂系统的非线性动力学建模提供了可验证的实验平台。

当然,任何技术框架都有其边界。当前系统主要针对单目标场景设计,多目标并发追踪时的数据关联与轨迹分离仍是待解难题;论文以三台相机为基准,相机数量与空间布局的优化也有进一步挖掘空间,更多视角可能提升精度与鲁棒性;此外,在建筑物密集的城市峡谷环境中,遮挡与多径效应将对系统性能提出更严苛的考验。未来工作可沿三个方向展开:将多目标数据关联机制嵌入TS模块,探索自适应的相机网络拓扑优化,以及在更复杂的城市环境中开展长时连续观测验证。

复杂系统自动建模读书会第二季

“复杂世界,简单规则。”

集智俱乐部联合复旦大学智能复杂体系实验室青年研究员朱群喜、浙江大学百人计划研究员李樵风、清华大学电子工程系数据科学与智能实验室博士后研究员丁璟韬、美国东北大学物理系Albert-László Barabási指导的博士后高婷婷、北京大学博雅博士后曹文祺、复旦大学数学科学学院应用数学方向博士研究生赵伯林、北京师范大学系统科学学院博士研究生牟牧云,共同发起。

读书会将于9月5日起每周四晚上20:00-22:00进行,探讨四个核心模块:数据驱动的复杂系统建模、复杂网络结构推断、具有可解释性的复杂系统推断(动力学+网络结构)、应用-超材料设计和城市系统,通过重点讨论75篇经典、前沿的重要文献,从黑盒(数据驱动)到白盒(可解释性),逐步捕捉系统的“本质”规律,帮助大家更好的认识、理解、预测、控制、设计复杂系统,为相关领域的研究和应用提供洞见。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:


1.

2.

3.

4.

5.

6.

7.