东京新宿的步行者天国每天吞吐数万人流,但很少有人想过——这些行人的走路方式本身,就是一组可被解码的数据指纹。
一位研究者用固定摄像头录下了这片区域,提取出3万条行人轨迹。他没有满足于"数人头"的常规操作,而是把每个人的速度、加速度、停留时间拆解成统计分布,再用信息几何(information geometry)的方法,把不同地点的人群行为建模成概率流形上的点。这套方法的野心在于:找到传统聚类算法(如k-means)用欧氏距离测不出来的群体差异。
从像素到米:用人体当标尺的野路子测速
所有轨迹数据最初都是像素坐标。要算真实速度,常规思路是相机标定或激光雷达,但这位研究者选了条更取巧的路:把行人 bounding box 的高度当作深度代理。
核心假设很朴素——成年人平均身高1.7米。对每一帧,取相邻两帧的边界框高度均值,算出比例尺:scale [m/px] = 1.7 / avg_bbox_height_px。像素距离乘上这个比例尺,就是真实位移。
这相当于用满街行人做了一次隐式的单目深度估计(monocular depth estimation)。精度当然不如专业设备,但成本趋近于零,且对固定摄像头场景足够可用。
每步速度由深度归一化后的位移除以时间间隔得到。加速度则是速度差分再除以时间。这里有个细节:研究者保留了加速度的符号,计算 mean signed acceleration——如果一段轨迹里加速和减速不对称,这个值会暴露出行人的"倾向性"(比如赶时间的人可能加速阶段更猛)。
另一个指标 decel_ratio 更直白:减速步数占总步数的比例。接近0.5说明走走停停很均衡;偏离0.5则暗示某种行为模式——要么在冲刺后急刹,要么在漫游中频繁启动。
信息几何:把人群行为当成可弯曲的统计空间
传统聚类把每个行人当成欧氏空间里的一个点,坐标是速度、加速度等特征。但研究者认为这不够——人群行为的差异,可能藏在分布的形状里,而非均值的高低。
信息几何的核心洞见是:概率分布本身可以构成一个流形(manifold),而分布之间的距离用 KL 散度或 Fisher 信息度量,而非直线距离。两个地点的人群,即使平均速度相同,若一个呈正态分布、一个呈双峰分布,在信息几何的框架下会被识别为截然不同的"物种"。
研究者计划用这种方法对比多个地点的行人分布。比如新宿步行者天国 vs 某个地铁站台,前者可能是松弛的指数尾分布,后者可能是紧张的尖峰分布——k-means 会把它们归到同一类,但流形上的测地线距离会撕开这层假象。
精度取舍:已知漏洞与下一步
作者坦承了两处硬伤。检测精度:行人遮挡、光照变化会导致漏检或 ID 切换,轨迹断裂会影响加速度计算的连续性。单应性投影(homography):把视频画面映射到地图需要精确的标定点选择,目前的手动选点可能引入系统性偏差。
但这些被明确列为"下一版再修",当前文章聚焦在分布分析的方法论验证。这种切割很产品经理——先跑通 MVP,再迭代优化。
一个有趣的旁支:作者提到用 AI 辅助润色英文,但强调分析、解读和核心想法是原创的。这几乎是在回应学术圈对"AI 代写"的焦虑——把语言外包给机器,但把思考留在人脑。
数据来自公开场景,方法全是经典统计工具,但组合方式有新意。这套框架如果跑通,可以低成本复制到任何有固定摄像头的公共空间——商场、车站、景区——用行为分布的偏移来检测异常,或验证某个设计改动是否真正改变了人流模式。
最后留个开放的切口:当你的走路速度、加速习惯、停留规律被编码成概率分布上的一个点,和成千上万陌生人一起构成一座城市的"行为地形图"——这种量化是更懂你了,还是只是更懂怎么预测你了?
热门跟贴