东京1.7米基准线：有人用行人身高破解了单目深度估计

固件更新中

2026-03-29 13:26 ·北京

从一段新宿街头视频里，有人提取出了127名行人的速度曲线。没有激光雷达，没有双目相机，只有一个固定机位和一条假设：成年人平均身高1.7米。

这个看似粗糙的锚点，成了整篇分析的地基。

作者来自信息几何领域，近期想把行人行为建模成概率分布。传统聚类比如k-means依赖欧氏距离，容易把"走得快但爱停顿"和"走得慢但匀速"的人混为一谈。他想换个思路：如果把不同地点的行人速度分布当成统计流形上的点，或许能捕捉到肉眼看不见的群体差异。

数据取自东京新宿步行者天国——周末禁止车辆通行的步行街区。视频里每个行人被框出边界框，轨迹包含时间戳、像素坐标、框高。仅此而已。

深度估计的 trick 在这里：用边界框高度当深度代理。连续两帧的平均框高，除以假设的1.7米真人身高，得到像素到米的换算比例。像素位移乘以比例，再除以帧间隔，就是真实速度。

作者承认这很取巧。行人弯腰、背包、儿童、姿态变化都会让框高失真。但"从固定机位看，这是不依赖标定板的最小可行方案"。

速度分布：比均值更重要的是"怎么变"

速度分布：比均值更重要的是"怎么变"

提取的特征不止平均速度。作者计算了每步加速度的有限差分，保留带符号的均值——这能判断一段轨迹整体是加速倾向还是减速倾向。

另一个指标叫 decel_ratio：减速步数占总步数的比例。接近0.5说明加减速平衡，接近1说明行人一路刹车（比如快到路口），接近0则像在赶时间。

从127条轨迹的分布看，平均速度集中在1.2-1.5米/秒，但方差极大。有人溜达，有人冲刺，有人走两步停下看手机。直方图呈现明显的右偏：大多数人慢，少数人快，符合街头观察直觉。

加速度分布更有意思。带符号均值的峰值略负于零，说明整体有轻微减速趋势——毕竟步行街尽头通常是路口或商店，人自然会放慢。

统计流形：把行为变成可比较的形状

统计流形：把行为变成可比较的形状

作者的真正目标不是描述单一场景，而是比较不同地点。他把每个地点的速度分布看作概率密度函数，再用信息几何工具计算分布之间的距离。

这和k-means的本质区别在哪？欧氏距离比较的是"均值和方差这些数字"，而流形距离比较的是"整个分布的形状"。两个地点可能平均速度相同，但一个呈正态、一个双峰——传统方法认为它们相似，流形方法能识别出这是两种截然不同的行人生态。

作者提到想用Fisher信息矩阵构造黎曼度量，但没展开。这部分显然是正在进行的工作，文章只铺了地基。

局限与诚实：哪些数字不能信

局限与诚实：哪些数字不能信

作者在多处标注了已知缺陷。检测精度：行人重叠时框会漂移，导致速度毛刺。标定：homography变换的地面控制点选得草率，远距离的像素-米换算误差放大。深度代理：1.7米假设对亚洲老年群体可能偏高，对青少年偏低。

最诚实的坦白是关于加速度的。帧率25fps时，单步时间间隔0.04秒，位移噪声被时间除后放大。加速度的信噪比"相当感人"，decel_ratio 比具体数值更可靠。

但这些局限被明确框定为"未来迭代"的内容。当前文章只负责证明：用极低成本的数据，能否提取出有区分度的行为特征。

答案是能，但有边界。分布的粗粒度特征（均值、方差、偏度、减速比例）稳定可复现；细粒度特征（单步加速度峰值）受噪声支配，需要滤波或聚合才能用。

作者用AI辅助润色英文，但强调分析、解释和核心想法是自己的。这行声明本身也是研究笔记的一部分——"学写技术英语是这个项目的一环"。

整篇文章像一份公开的实验日志：假设、实现、验证、存疑。没有宣称"解决了行人行为分析"，只是展示了一条从像素到分布的通路，以及路上每个坑的位置。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴