每晚11点,我走进厨房,从柜子里摸出两种零食,蹲下来对着一只83磅、33英寸高的灰狗Bebop说:“选择。”然后伸出双手,等它用行动投票。养了它几年,我居然连它最喜欢什么零食都答不上来——它能从孩子手里抢披萨,也能偷吃猫粮,可哪种才是它的心头好?问它,它只会摇尾巴。
没法儿直接问,那就得用统计学绕路。布拉德利-特里模型专门应付这种“只能两两比较”的场景:给每个零食分配一个“强度分数”,A比B好吃的概率就是p_i/(p_i+p_j)。换成指数形式p_i = e^{β_i},概率就变成e^{β_i}/(e^{β_i}+e^{β_j})。说人话就是,两个选项背后的隐藏实力差,决定了胜率的对数几率。你不用开口问“哪个更好”,靠选择数据就能还原出排名。
这套逻辑和棋类用的埃洛评分几乎是一个妈生的。Elo里选手赢的概率写成10^{R_i/400}/(10^{R_i/400}+10^{R_j/400}),每比完一场就用R_A' = R_A + K(S_A - E_A)更新分数。K控制波动幅度;你赢了预期中该赢的,分数只微微上浮;爆冷灭了强手,分数马上蹿升。可以把它看成布拉德利-特里的在线版——每打一场排名立刻刷新。电影《社交网络》里扎克伯格拿它做FaceSmash,让两两比较生成全校女生排名;如今聊天机器人竞技场也用同样的思路给AI模型打榜。只不过我的实验数据少,用不着在线更新,一次性拟合布拉德利-特里就好。
实验设置简单到荒诞。拿一堆零食贴好标签,每天固定时间(晚上11点),我随机抓两种,喊一声“choice”,双手各举一种伸向Bebop,只许它选一个。它迅速学会了这个口令,每次兴奋地冲过来,叼走自己认定的一侧。我把所有选择记录成一张“谁赢了谁”的表格。数据量够了之后,模型一跑,每个零食的强度分数就浮出水面——排序一拉,狗子的真实偏好根本藏不住。
这套方法不只对狗管用,任何没法儿填问卷的“用户”——从实验室大鼠到还不会说话的幼儿——都能用它挖出真实偏好。关键是你得愿意每天花几分钟,当个认真的记录员。有人会嘀咕:狗的口味会不会天天变?它随手一叼是不是在逗我?布拉德利-特里模型的好处就在于,概率本身就是在对随机性建模。连续多天选下来,真实偏好会从噪声里稳稳浮出来。下次你家毛孩子对着零食架犹豫,不妨试一把这套统计学手段:让数据代替它开口。
热门跟贴