囚徒困境和纳什均衡

2017-11-27
字体:
浏览:
文章简介:囚徒困境(prisoneis' dilemma)是博弈论的著名例子,纳什均衡是博弈论的重要概念.囚徒困境说的是,两个嫌疑犯作案后被捕,起诉机构没有足够的证据证明

囚徒困境(prisoneis’ dilemma)是博弈论的著名例子,纳什均衡是博弈论的重要概念。囚徒困境说的是,两个嫌疑犯作案后被捕,起诉机构没有足够的证据证明他们抢劫了银行。所以,若疑犯不坦白,起诉者只能以非法持有武器罪起诉,判两人有期徒刑2年。

起诉者于是向疑犯采取攻心战,说可以“坦白从宽、抗拒从严”。如果一人坦白,则坦白者从宽处理,判徒刑1年,抗拒者从严处理,判徒刑12年。如果两人都坦白,每人依法判徒刑10年。两个疑犯是坦白还是不坦白呢?从博弈论角度看,两个疑犯面临着如下一场博弈:

我们现在介绍两个博弈论的基本概念:博弈均衡与纳什均衡。博弈论假设博弈的参加者都是理性的,即在对手战略给定的条件下,每个参加者都会选择适当的战略来实现自己报酬的最大化(或损失最小化)。问题是博弈的一方不能控制另一方的决策。

当参加者甲以最优战略对付乙的某个战略时,乙会发现原先的战略不是对付甲的最佳战略,因而会改变其战略。要是乙改变了战略,参加者甲也要进行相应的改变。这样的改变行为会否停止?这里借用经济学常用的均衡概念,我们把博弈的稳定结果称为均衡,博弈的均衡也称为博弈的解。均衡是指所有的参加者都不想改变战略的状态。

比较容易理解的一个博弈均衡概念是占优战略均衡。由于每个博弈参加者的效用水平是博弈中所有参加者的战略的函数,由此每个参加者的最优战略选择依赖于所有其他参加者的战略选择。但是在一些特殊的博弈中,一个参加者的最优战略可能并不依赖于其他参加者的战略选择,也就是说,不论其他参加者选择什么战略,他的最优战略是唯一的,这样的最优战略被称为'“占优战略"(dominant在上述的囚徒困境博弈中,每个囚徒可选择的战略有两种:坦白与不坦白。

显然,不论另外一个囚犯选择什么战略,每个囚犯的最优战略都是“坦白”。例如,如果乙选择坦白,囚徒甲选择坦白时的报酬为-10,选择不坦白的报酬为-12,因而坦白比不坦白好;如果乙选择不坦白,甲坦白的报酬为-1,不坦白的报酬为-2,所以坦白还是比不坦白好。

也就是说坦白”是囚犯甲的占优战略。由于对称性,“坦白”也是囚犯乙的占优战略。于是,(坦白,坦白)或(-10, -10)是囚徒困境博弈的占优均衡。

有趣的是,甲乙两人都寻求最好的结果,而得到的却是较槽的结果。这个例子说明,在多人决策的环境里,个人理性与集体理性经常是矛盾的,这种集体利益和个人利益之间的冲突被称为“囚徒困境”。本文研究的企业网络合作问题也可以用囚徒困境的模型加以解释。

博弈论有一个重要的解概念——纳什均衡。纳什均衡是这样一种稳定状态,如果其他参加者都不改变战略的话,博弈的任何一方参加者都不会改变其战略。因其重要,我们给出纳什均衡的严格定义。

依定义,任何占优战略均衡必定是纳什均衡,但纳什均衡却不一定是占优战略均衡,占优战略均衡是比较强的均衡概念。囚徒困境中的(坦白,坦白)就是纳什均衡。经济生活中的众多集体利益和个人利益之间的冲突带来的非帕累托有效状态都是纳什均衡,企业网络成员企业之间的一次性博弈结果经常也是一个纳什均衡。如何走出纳什均衡实现帕累托改进,一直是理论界和实务界所关注的问题。

前面讨论的是静态博弈,即博弈各方同时行动,但是经济生活中许多情形是动态博弈,也就是指博弈参加者的行动有先后顺序,又叫序贯博弈。博弈总的可以分为完全信息的博弈(即博弈参加者的收益函数是共同知识的博弈)和不完全信息博弈(博弈中的一些参加者不知道其他参加者的收益函数)。

完全信息动态博弈又分为完全且完美信息(complete and perfect information)的动态博弈和完全但不完美信息博弈两类。前者是指在博弈进行的每一步中,要选择行动的参加者知道这一步之前博弈进行的整个过程;后者是指在博弈的某些阶段,要选择行动的参加者并不知道在这一步之前博弈进行的整个过程。

一个子博弈是全部博弈的一部分,当全部博弈进行到任何一个阶段,到此为止的进行过程已经称作博弈参加各方的共同知识,而其后尚未开始进行的部分就是一个子博弈。如果博弈参加者的战略在每一子博弈中都构成纳什均衡,我们称此纳什均衡是子博弈完美纳什均衡(sut^ame perfect Nash equilibrium) (Selten, 1965)0所有动态博弈的中心问题是可信任性,所以不可置信的威胁被研究较多,子博弈完美纳什均衡(SPNE)是不含不可置信的威胁的c子博弈完美纳什均衡可以用逆向归纳法(backwards- induction)找出。