东京街头3万条行人轨迹：有人把监控录像做成了行为显微镜

野生运营

2026-03-29 13:26 ·北京

东京新宿的步行者天国每天吞吐数万人流，但很少有人想过——这些行人的走路方式本身，就是一组可被解码的数据指纹。

一位研究者用固定摄像头录下了这片区域，提取出3万条行人轨迹。他没有满足于"数人头"的常规操作，而是把每个人的速度、加速度、停留时间拆解成统计分布，再用信息几何（information geometry）的方法，把不同地点的人群行为建模成概率流形上的点。这套方法的野心在于：找到传统聚类算法（如k-means）用欧氏距离测不出来的群体差异。

从像素到米：用人体当标尺的野路子测速

从像素到米：用人体当标尺的野路子测速

所有轨迹数据最初都是像素坐标。要算真实速度，常规思路是相机标定或激光雷达，但这位研究者选了条更取巧的路：把行人 bounding box 的高度当作深度代理。

核心假设很朴素——成年人平均身高1.7米。对每一帧，取相邻两帧的边界框高度均值，算出比例尺：scale [m/px] = 1.7 / avg_bbox_height_px。像素距离乘上这个比例尺，就是真实位移。

这相当于用满街行人做了一次隐式的单目深度估计（monocular depth estimation）。精度当然不如专业设备，但成本趋近于零，且对固定摄像头场景足够可用。

每步速度由深度归一化后的位移除以时间间隔得到。加速度则是速度差分再除以时间。这里有个细节：研究者保留了加速度的符号，计算 mean signed acceleration——如果一段轨迹里加速和减速不对称，这个值会暴露出行人的"倾向性"（比如赶时间的人可能加速阶段更猛）。

另一个指标 decel_ratio 更直白：减速步数占总步数的比例。接近0.5说明走走停停很均衡；偏离0.5则暗示某种行为模式——要么在冲刺后急刹，要么在漫游中频繁启动。

信息几何：把人群行为当成可弯曲的统计空间

信息几何：把人群行为当成可弯曲的统计空间

传统聚类把每个行人当成欧氏空间里的一个点，坐标是速度、加速度等特征。但研究者认为这不够——人群行为的差异，可能藏在分布的形状里，而非均值的高低。

信息几何的核心洞见是：概率分布本身可以构成一个流形（manifold），而分布之间的距离用 KL 散度或 Fisher 信息度量，而非直线距离。两个地点的人群，即使平均速度相同，若一个呈正态分布、一个呈双峰分布，在信息几何的框架下会被识别为截然不同的"物种"。

研究者计划用这种方法对比多个地点的行人分布。比如新宿步行者天国 vs 某个地铁站台，前者可能是松弛的指数尾分布，后者可能是紧张的尖峰分布——k-means 会把它们归到同一类，但流形上的测地线距离会撕开这层假象。

精度取舍：已知漏洞与下一步

精度取舍：已知漏洞与下一步

作者坦承了两处硬伤。检测精度：行人遮挡、光照变化会导致漏检或 ID 切换，轨迹断裂会影响加速度计算的连续性。单应性投影（homography）：把视频画面映射到地图需要精确的标定点选择，目前的手动选点可能引入系统性偏差。

但这些被明确列为"下一版再修"，当前文章聚焦在分布分析的方法论验证。这种切割很产品经理——先跑通 MVP，再迭代优化。

一个有趣的旁支：作者提到用 AI 辅助润色英文，但强调分析、解读和核心想法是原创的。这几乎是在回应学术圈对"AI 代写"的焦虑——把语言外包给机器，但把思考留在人脑。

数据来自公开场景，方法全是经典统计工具，但组合方式有新意。这套框架如果跑通，可以低成本复制到任何有固定摄像头的公共空间——商场、车站、景区——用行为分布的偏移来检测异常，或验证某个设计改动是否真正改变了人流模式。

最后留个开放的切口：当你的走路速度、加速习惯、停留规律被编码成概率分布上的一个点，和成千上万陌生人一起构成一座城市的"行为地形图"——这种量化是更懂你了，还是只是更懂怎么预测你了？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴