AlphaGo一棋不对就闹情绪?它欠古力的解释全在这|alphago|古力|围棋|李世石

网易体育5月26日报道：

在今天上午的人机对弈配对赛中，古力+AlphaGo对阵连笑+AlphaGo，经过近3个小时激战，连笑+AlphaGo执白中盘胜。临近结束的时候出现了有趣的一幕，和古力一组的AlphaGo主动跟古力示意认输，古力拒绝以后AlphaGo开始在中腹白空中胡乱填子越亏越多，见此情形古力也只能示意中盘认负。赛后有人形容这是计算机在闹情绪，这……人工智能竟已经发展到了会闹情绪的地步？这到底是怎么回事？

相关阅读：

人机配对赛人类选手错进错出古力苦笑举牌认输

古力:我拒认输AlphaGo就乱下它若是人就打架了

我们知道AlphaGo以胜率来指导行棋，那胜率降低到一定数值，AlphaGo的神经网络就会判断这盘棋已经完全没有希望了。这个胜率的数值可以认为是计算机对局势彻底“绝望”的阈值（这里假定为胜率X），低于这个值，AlphaGo的神经网络就会认为正常走棋已经不可能取胜，开始选择走一些类似于打将的对方不应就会逆转的棋，赌对方有小概率不应。去年和李世石的第四盘棋，95以下的一系列打将的下法就是这种情况的表现，而第79-93手的下法则并不是，这一串失误应该解释为没有下出最优解，属于当时程序的围棋水平所限。

李世石去年战胜AlphaGo时，机器出现“闹情绪”乱下的情况，与今日古力遇到的有本质区别。

同时为了确保计算机程序能够顺利结束一盘棋而不是没完没了的进行类似的尝试，程序中人为设定了认输的胜率条件，这里假定低于胜率Y就主动认输。我们可以根据X与Y的数值大小推测一下计算机围棋程序在低胜率情况下会如何选择。

1、X>Y，这种情况下，计算机程序内部的胜率阈值高于人工设定的认输条件，程序的神经网络判断局势已经无法挽回，但又不满足认输条件，这个时候就会出现去年和李世石第四盘后半盘连续打将直到胜率低于认输条件Y，再选择认输。

2、X=Y，这种情况下，计算机程序内部的胜率阈值等于人工设定的认输条件，程序的神经网络判断局势无法挽回，同时也触发认输条件，计算机程序就会正常地“体面”地认输，就像今天的配对赛中和古力搭档的AlphaGo第一次向古力提出认输请求那样。

3、X<Y，在这种情况下，计算机程序还没有触发内部的胜率阈值就先触发了人为设定的认输条件，外在表现为明明局势还不明朗，计算机程序就选择认输了。

在上述三种情况中，根据上午配对赛的情况，大致可以判断新版本的alphago属于情况2，既X=Y，在局势已经不行了的时候alphago会体面的认输。但是由于古力的拒绝，AlphaGo不得不在胜率已经低于X的情况下继续走棋，就触发了情况1的现象，导致看上去好像AlphaGo被古力拒绝认输以后在闹情绪。

作者：周楠