一个固定摄像头,每秒记录数十人的移动轨迹。没有激光雷达,没有多机位同步,研究者只用了一个假设——成年人平均身高1.7米——就把像素坐标转成了真实世界的速度和加速度。
这套方法测出的数据,最终画出了一张"行人行为地图"。
用身高当深度尺,单目视频算出真实速度
研究者在东京新宿的步行者天国(周末封路形成的行人专用区)架设了固定摄像头。每个被检测到的行人,系统记录时间戳、画面像素坐标、以及检测框高度。仅凭这三项数据,推导出速度、加速度、停留时间等一系列行为指标。
关键转换在于把像素距离变成米。研究者用了最简单的几何直觉:人越远,在画面里越小。用连续两帧的平均检测框高度,除以假设的1.7米真人身高,得到当前位置的尺度因子(scale)。像素位移乘以这个因子,就是真实位移。
这相当于把每个行人当成一把移动的标尺,边走边标定自己的深度。
这种方法叫"隐式单目深度估计"——不需要深度传感器,只用已知物体尺寸做参照。误差来源很明显:检测框高度波动、行人实际身高差异、弯腰或背包造成的形变。但研究者认为,在统计层面,这些噪声会被大量样本平均掉。
3万条轨迹画出的速度分布,长什么样
数据集最终包含约3万条完整轨迹。速度分布呈现明显的右偏态:大部分行人集中在1.2-1.5米/秒的"散步速度",右侧拖着一条长尾——少数人在赶路,极少数在奔跑。
加速度的分布更有意思。研究者计算了"减速比例"(decel_ratio):加速度为负的步数占总步数的比例。数值接近0.5,说明行人在加速和减速之间基本平衡;显著偏离0.5,则暗示该区域存在某种行为模式——比如靠近路口时普遍减速,或商场入口前出现加速冲刺。
平均加速度的符号也有信息。正值偏多,说明人群整体在"启动"状态;负值偏多,则是"收敛"状态。新宿这个数据集里,平均加速度略为负值,符合周末休闲区的直觉:人们走走停停,最终趋于静止或离开。
从k-means到统计流形:聚类方法的代差
研究者真正想做的,是跨地点比较行人行为。传统方法用k-means聚类,把速度、加速度等特征当成欧几里得空间里的点。问题是:两个地点的速度均值可能接近,但分布形状完全不同——一个集中,一个分散;一个对称,一个偏斜。
欧几里得距离捕捉不到这种差异。
于是引入信息几何的框架:把每个地点的速度分布看作概率分布空间中的一个点,用统计流形(statistical manifold)上的测地线距离来衡量"分布之间的差异"。这比直接比较均值和方差更敏感,能区分"同样快慢,但行为逻辑不同"的场景。
研究者在文末提到,这是受近期学习信息几何的启发。从轨迹提取到分布建模,再到流形上的比较,形成了一条完整的技术链条。
局限与未来:检测精度仍是天花板
作者明确列出了当前版本的硬伤。检测精度:遮挡、密集人群中的ID切换,会导致轨迹断裂或合并。单应性变换(homography)的标定:地面参考点选得不好,远距离的投影误差会放大。这些被标记为"未来迭代"要解决的问题。
另一个未展开的方向是时间维度。当前分析把3万条轨迹混在一起,没有区分时段。周末下午和傍晚的行为模式是否不同?研究者留了口子,但没给答案。
方法本身也有边界。身高1.7米的假设在儿童多的场景会系统性地高估距离;检测框高度受姿态影响,坐着的人会被当成"极远距离的站立者"。这些偏差在统计平均中部分抵消,但在特定子群体中会残留。
研究者用AI辅助润色英文,但强调分析、解释和核心想法是原创的。学习技术写作本身被列为一项并行目标——这在技术博客中不多见,暗示作者处于学术训练或职业转型期。
数据集来自2024年东京新宿的周末 pedestrian zone。没有提及是否获得行人知情同意,这是计算机视觉伦理的常规敏感点,作者选择沉默。
如果这套方法搬到上海南京路或成都春熙路,速度分布的峰值会左移还是右移?统计流形上的距离,能不能区分"旅游城市"和"通勤走廊"的行人行为模式?作者没回答,但留下了工具。
热门跟贴