囚徒结局是什么意思?
纳什证明了这样的定理:在对偶博弈中,总存在一种“非空集”(nonemptyset,即“非空解”)策略,使得每一个参与者都不可能通过单方面改变自己的策略而获得益处。换言之,一种“非空解”策略一经达成,就很难在外界没有强力介入的情况下被打破。我们习惯称之为“纳什均衡”。
对于现实世界,一旦存在某个参与者改变策略可以获得净收益的情况,我们就认为存在一种“非空解”推动该参与者改变策略。如此,“纳什均衡”作为一种“非空解”,就相当于经典力学中一个系统的平衡状态:只要外力非零,系统就会移动。
基于如上考虑,不难得出:
只要博弈的最终结局不是帕累托最优的,就必然存在一个参与者的某个单方面策略变更能够带来净收益,这就构成了一个推动该参与者改变原有策略的“非空解”,也就是说,原有达成的“纳什均衡”(即原有系统的平衡状态)将被打破,最终必然实现帕累托最优。囚徒困境就是一个例子。
然而,帕累托最优却不一定具有稳定性,即不一定能实现“纳什均衡”。囚徒困境中的最优策略组合就是一个反例。
简言之,帕累托最优是关于静态最优的概念,研究的是既定条件下(如达成“纳什均衡”时)的最优组合;而纳什均衡是关于动态稳定的概念,研究的是各种参与者考虑自身利益后的最终结局。