零和博弈(zero-sum game),又称零和游戏,与非零和博弈相对,是博弈论的一个概念,属非合作博弈。指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为“零”,双方不存在合作的可能。
也可以说:自己的幸福是建立在他人的痛苦之上的,二者的大小完全相等,因而双方都想尽一切办法以实现“损人利己”。零和博弈的结果是一方吃掉另一方,一方的所得正是另一方的所失,整个社会的利益并不会因此而增加一分。
在游戏设计多玩家对抗的时候,需要平衡各个玩家的参数。采取何种方式更为合理呢?本文将阐述其中一种平衡关系。
零和博弈的意思是:在这个环境中,获胜的一方和失败一方的收益或损失是相互抵销的。只要这结果集中任何一个结果双防的得失不相等,都不是零和博弈。
双人的“石头剪刀布”是一款经典的零和博弈游戏,每一次石头剪刀布,都必定只有一个获胜方,一个失败方(或平局)。假设获胜的分值+1,失败分值-1,平局分值+0。那么在下表中,每一局游戏的总的收益全部为0。零和博弈中所有结果都能称之为:帕累托最优。
图1.1 石头剪刀布中游戏结果集
事实上,游戏设计者在绝大部分情况下并不希望游戏是零和博弈。游戏设计者更多希望玩家之间能够有相互的对抗,并且玩家加入游戏后,就难以变得比参与之前更好。这样零和博弈的问题可以采用“非零和博弈”或者引入“极大/极小”来解决。
一种经典的非零和博弈叫“囚徒困境”,“囚徒困境”是1950年美国兰德公司提出的博弈论模型。两个共犯被关入监狱,在不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人保持沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑五年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。
我们可以用图表来表示上述情况,如果立即获释,得0分,每人获刑1年,则-1分;如果获刑两年则-2分,如果获刑五年则-5分。结果如下:
<img src="https://pic1.zhimg.com/7b96089994c8e7ea2f1274d224a5d52c_b.png" data-rawwidth="872" data-rawheight="167" width="872" data-original="https://pic1.zhimg.com/7b96089994c8e7ea2f1274d224a5d52c_r.png">
图1.1 囚徒困境中两位囚徒抉择后结果集
这种模式是玩家理性自利的。尽管在游戏中会看到囚徒会有合作(或许并没有人鼓励他们)。如果这两个歹徒不小心被第二次逮捕,即便他们第一次产生了合作,但第二次会立即背叛对方。(多次游戏中,在玩家摸索到游戏对于自己最优的方式后,再次游戏的时候玩家会毫不犹豫地选择这样的方式)。
为了保证游戏的公平性,只要 最坏>次坏>最好的情况成比例,游戏就不需要对称。游戏需要玩家之间的对抗。
非零和博弈比零和博弈更为复杂,因为有可能同时存在多个玩家输(或赢),或者所有玩家都输(或赢)。基本上所有的赌博游戏都是非零和博弈的,因为在一定数量的“游戏”发生之后,不会有人比“游戏”之前的收益更高。
上文描述的,在两个玩家玩石头剪刀布的零和博弈游戏中,每一个玩家会选择一个能最大化他们回报的混合策略。极小极大原理是现代计算机之父约翰·冯·诺依曼提出的。在零和博弈中,每一个玩家们致力于让竞争对手得到最小的回报,这并不一定是让自己获得最大的成功的选项,因为自己获得最大成功并不能压制对手的崛起。
这个定理反过来,是极大极小原理。它广泛应用于非零和博弈中。玩家会致力于防止最差的结果,极力避免错误决定导致游戏的崩盘。他们倾向于选择最稳妥最不会带来失败的选项进行游戏。在竞争对手崛起的过程中,玩家会竭尽全力阻挠并让自己最小的一比收益利用率最大化。
一般来说,上述两种理论几乎都是玩家认为最合适的方式来保证自己的发育与成功。在设计游戏的时候应该按照比例合理设置玩家各类可能性比值,对玩家行为进行预估。迫使玩家主动对于目前的环境做出对自己最优的选择。
在单击游戏中,玩家没有竞争对手的时候,设计者要对游戏结果进行足够多的不可预知的设计从而促使玩家进行在该位置上的利己决策。通过各类关卡与引导帮助玩家自然地选择。如决定是否对一个高风险的关卡进行挑战,如果挑战成功,玩家将会获得极为可观的收益;当玩家失败了,这一次的挑战将需要玩家一段时间恢复才能重新挑战。
游戏设计中,需要尽可能引导玩家对自己的处境进行评估,同时给予玩家利用少量资源的消耗获得可观收益的机会,最后要把玩家置于一个稍微不利的环境中促使玩家努力参与其中。
热门跟贴