打开网易新闻 查看精彩图片

从一段新宿街头视频里,有人提取出了127名行人的速度曲线。没有激光雷达,没有双目相机,只有一个固定机位和一条假设:成年人平均身高1.7米。

这个看似粗糙的锚点,成了整篇分析的地基。

作者来自信息几何领域,近期想把行人行为建模成概率分布。传统聚类比如k-means依赖欧氏距离,容易把"走得快但爱停顿"和"走得慢但匀速"的人混为一谈。他想换个思路:如果把不同地点的行人速度分布当成统计流形上的点,或许能捕捉到肉眼看不见的群体差异。

数据取自东京新宿步行者天国——周末禁止车辆通行的步行街区。视频里每个行人被框出边界框,轨迹包含时间戳、像素坐标、框高。仅此而已。

深度估计的 trick 在这里:用边界框高度当深度代理。连续两帧的平均框高,除以假设的1.7米真人身高,得到像素到米的换算比例。像素位移乘以比例,再除以帧间隔,就是真实速度。

作者承认这很取巧。行人弯腰、背包、儿童、姿态变化都会让框高失真。但"从固定机位看,这是不依赖标定板的最小可行方案"。

速度分布:比均值更重要的是"怎么变"

速度分布:比均值更重要的是"怎么变"

打开网易新闻 查看精彩图片

提取的特征不止平均速度。作者计算了每步加速度的有限差分,保留带符号的均值——这能判断一段轨迹整体是加速倾向还是减速倾向。

另一个指标叫 decel_ratio:减速步数占总步数的比例。接近0.5说明加减速平衡,接近1说明行人一路刹车(比如快到路口),接近0则像在赶时间。

从127条轨迹的分布看,平均速度集中在1.2-1.5米/秒,但方差极大。有人溜达,有人冲刺,有人走两步停下看手机。直方图呈现明显的右偏:大多数人慢,少数人快,符合街头观察直觉。

加速度分布更有意思。带符号均值的峰值略负于零,说明整体有轻微减速趋势——毕竟步行街尽头通常是路口或商店,人自然会放慢。

统计流形:把行为变成可比较的形状

统计流形:把行为变成可比较的形状

作者的真正目标不是描述单一场景,而是比较不同地点。他把每个地点的速度分布看作概率密度函数,再用信息几何工具计算分布之间的距离。

这和k-means的本质区别在哪?欧氏距离比较的是"均值和方差这些数字",而流形距离比较的是"整个分布的形状"。两个地点可能平均速度相同,但一个呈正态、一个双峰——传统方法认为它们相似,流形方法能识别出这是两种截然不同的行人生态。

打开网易新闻 查看精彩图片

作者提到想用Fisher信息矩阵构造黎曼度量,但没展开。这部分显然是正在进行的工作,文章只铺了地基。

局限与诚实:哪些数字不能信

局限与诚实:哪些数字不能信

作者在多处标注了已知缺陷。检测精度:行人重叠时框会漂移,导致速度毛刺。标定:homography变换的地面控制点选得草率,远距离的像素-米换算误差放大。深度代理:1.7米假设对亚洲老年群体可能偏高,对青少年偏低。

最诚实的坦白是关于加速度的。帧率25fps时,单步时间间隔0.04秒,位移噪声被时间除后放大。加速度的信噪比"相当感人",decel_ratio 比具体数值更可靠。

但这些局限被明确框定为"未来迭代"的内容。当前文章只负责证明:用极低成本的数据,能否提取出有区分度的行为特征。

答案是能,但有边界。分布的粗粒度特征(均值、方差、偏度、减速比例)稳定可复现;细粒度特征(单步加速度峰值)受噪声支配,需要滤波或聚合才能用。

作者用AI辅助润色英文,但强调分析、解释和核心想法是自己的。这行声明本身也是研究笔记的一部分——"学写技术英语是这个项目的一环"。

整篇文章像一份公开的实验日志:假设、实现、验证、存疑。没有宣称"解决了行人行为分析",只是展示了一条从像素到分布的通路,以及路上每个坑的位置。