博弈论(Game theory)可以说是最近几十年社会科学研究方法的最重要进展。1994年诺贝尔经济学奖授予普林斯顿大学数学家纳什、匈牙利裔美籍经济学家斯坦福大学的豪尔绍尼、德国经济学家泽尔滕,他们三人对博弈论的发展作出了决定性的贡献。作为着力于研究“理性人的互动行为”(Aumann,1985,p35)的一门学科,博弈论几乎可以被运用于经济学和其它社会科学的各个领域。奥曼在权威的《帕尔格雷夫大辞典》中的《博弈论》条中对这门学科的历史,它在八十年代中叶以前的发展成果作了精到的介绍。继博弈论的开创者冯诺依曼和经济学家摩根斯顿的巨著《竞赛论和经济行为》之后,九十年代的几本教科书性质的专著(Fudenberg & Tirole, 1991; Myerson, 1991; Osborne & Rubinstein,1994),加上奥曼和哈特主编的百科全书式的《博弈论及其应用手册》(Aumann & Hart, 1992, 1994),对博弈论作了全面系统甚至可以说是包罗万象的处理。
博弈论首先是一门数学,众多数学家开创了这门学科。二十世纪初的策梅罗(Zermelo),波雷尔(Borel)等人提出了一些零散的成果,甚至现代数理经济学的鼻祖,十九世纪法国人古诺(Cournot)关于寡头垄断的分析里也已经有了后来纳什提出的成为整个博弈论的核心概念的纳什均衡的雏形。博弈论早期的重大贡献是著名数学家约翰冯诺意曼关于二人零和(zero-sum)博弈的最大最小定理。1950年纳什完成其博士论文,并于次年据之修改发表了已经成为经典的《非合作博弈》(Nash, 1951),开创了非合作博弈的新局面,纳什证明了任何策略型博弈都存在纳什均衡,纳什均衡成为最基本最重要的博弈解概念。后来大家发现纳什均衡要求完全信息,而现实中更多的不完全信息博弈依然无法处理。豪尔绍尼(Harsanyi, 1967-8)提供了一个方案(Harsanyi doctrine),把不完全信息博弈转化为贝叶斯博弈,并定义了贝叶斯博弈的纳什均衡解,即贝叶斯-纳什均衡。当代博弈解的研究几乎都是围绕纳什均衡的加强与减弱进行的。
博弈论研究“理性人的互动(interactive)行为”,这意味着两个前提:其一,博弈的结果是由所有人的行动共同决定的;其二,既然每个人都是理性的,会运用他所掌握的所有知识和信息选择效用最大化的行为,那么他选择行动时必须考虑别人同样是理性的。博弈论的近期发展表明,它本质上依赖于两个东西,即在它的模型内,博弈者的知识和技术。博弈者的技术决定了博弈的物理框架,即每个博弈者的策略集合,建立在策略组合上的结算函数等 ;而博弈是如何进行的,即什么样的博弈解是合理的,则由博弈者的知识决定。
毫无疑问纳什均衡是所有非合作博弈解概念中最著名者。所谓纳什均衡,就是这样一个策略组合,在其他人不改变策略的情况下,每一个人都不可能通过改变策略提高自己的所得。如博弈论的经典之一《博弈和决策》的作者卢斯和莱法所指出:“如果我们的非合作理论导致一个策略选择的组合,并且它具有这样的性质,即关于理论的知识不会导致一个人作出一个不同于理论预见到的选择,那么理论剥离出来的策略一定是均衡点” 。这也使得它成为最有吸引力的解概念,因为纳什均衡是满足自我实施(self-enforcement)性质的最低要求。当然,正如奥曼所表明的,并非所有纳什均衡是自我实施的(Aumann, 1990)。
下面我们以著名的“囚徒困境”(Prisoners’ dilemma)来说明什么是纳什均衡。作为博弈论中的一个著名例子,它受到的广泛注意是无出其右的。并且我们从中可以看出个人理性和社会理性是如何发生冲突的。霍布斯认为,所谓自然状态,就是“一切人反对一切人的战争状态”,这在囚徒困境中可以得到部分说明。
囚徒困境假设:甲乙二人因偷窃被抓,检察官向他们指出如图所示的各种情况下的徒刑年数(右边为相应的纯效用结果)。我们可以看到,在这里,每个囚徒都有两种战略:坦白和抵赖。纳什均衡就是两个人都选择坦白(这甚至是占优策略均衡,即每个人的策略对别人的任何策略总是最佳应对)。换句话说,不论对方如何选择,个人最优选择是坦白。因为假设乙抵赖,如果甲不坦白,二人各判2年,如果甲坦白,甲被释放,乙判10年,所以坦白比不坦白要好;反之,假设乙坦白的情况下,如果甲抵赖,甲判10年,乙被释放,如果甲亦坦白,则二人各判5年,所以坦白还是比不坦白要好。所以不论于甲于乙,坦白总比抵赖要好,最终结果是两人都选择坦白,各判5年。其实。如果两个人都抵赖,各判2年,当然比都坦白各判5年要好,但这个帕雷托改进办不到。至于如何在不同的博弈结构里“走出”囚徒困境,大抵要依赖于多次博弈和某种非完全理性,比如“一报还一报”(所谓“己所不欲,勿施于人”)策略。
囚徒乙
坦白 抵赖 背叛 合作
坦白 5,5 1,10 背叛 -5,-5 -1,-10
囚徒甲
抵赖 10,1 2,2 合作 -10,-1 -2,-2
另外一个例子是所谓的“特权的灾难”。
甲 乙 丙
a b c
b c a
c a b
在一个委员会(如美国参议院中的民主、共和两党与副总统)中,甲(相当于副总统)有特权,即如果乙和丙意见不一致时以他的为准。如上是三个人的真实偏好。这个博弈可以用后面提到的劣策略重复剔除方法解出。由于预见到甲会选择a,而a是对乙最差的,那么乙会选择c,因为b是丙最不喜欢的,并且丙会预见到这点。结果乙和丙都选择了c,博弈的结果是享有特权的甲最不喜欢的c出现。
纳什均衡所要求的理性程度和知识是很强的,那么这些知识来源于什么呢?传统博弈论提供了几种看法,如事前交流(pre-play communication)、自我实现的预言(self-fulfilling prophecies)和焦点(focal points)解释。事前交流解释是说,如果博弈者事前讨论如何玩这个游戏,那么它一定是纳什均衡,要不就会至少有一个人有动力偏离这种玩法;自我实现的预言是说如果大家都知道一个理论预言游戏应该怎么玩,那它一定预言的是纳什均衡;至于焦点解释,则是说,所谓均衡,就是大家都知道的明显的玩法。
由于对范围广泛的博弈来说,纳什均衡的存在要求混合策略,即博弈者以一定的概率随机地选择其行动,因此值得给出必要的解释。对于随机策略均衡可以有几种理解 :第一,理解为行动方案;第二,每个博弈者实际上选择纯策略,随机策略反映了对手对他的信念的不确定性,或者说这是对手对他的猜测(conjecture);第三,展开型博弈中的纯策略;第四,如豪尔绍尼所揭示的,看作一个被扰动的博弈(perturbed game)的纯策略;第五,进化过程中运用相应的纯策略的博弈者在人群中的稳定分布(steady state)。但纯策略的选择必须是随机的,否则对手有可能会改变策略,也就有可能脱离这个均衡。
虽然人们通常认为纳什均衡是非合作博弈最可接受的解概念,但奥曼( Aumann, 1987),伯恩亥姆( Bernheim, 1984)和皮尔斯( Pearce,1984)等人指出,比纳什均衡更弱的概念,如重复优超解(iterated dominance),可合理化解(rationalizability),相关均衡解(correlated equilibrium),也有成为博弈解的很好的理由。博恩海姆(Bernheim, 1986, 1998)对这四个规范型博弈的基本解概念作了公理刻画。他提出四个公理:
最优性(optimization)意味着,每个博弈者都是理性的,所以他会选择一个根据其信念的最优反应,即他不会选择那些被优超的策略。
协调性(consistency)要求每个博弈者都认识到别人是理性的。
独立性(independence)意味着博弈者的信念之间是概率上不相关的。
普遍先验(common prior)要求博弈者的先验信念是一致的。
当满足最优性和协调性时,博弈的解为重复优超解;当加上独立性时,为可合理化解;如果不要独立性而加上普遍先验假设,则为相关均衡解;四个公理都满足时就是纳什均衡解。
展开型博弈描述了一个策略性互动过程的序贯结构的细节。它提供了比规范型博弈更多的信息,因为它确切地刻画了“谁在什么时候知道什么”以及“其结果是什么”等等。直觉上我们自然可以认为展开型博弈是比正规型博弈更广泛的,因为后者是前者中的一个退化或平庸情形,但二者的联系可能更重要。
有的展开型博弈会包括多个纳什均衡解,其中有的包含了不可置信的威胁。针对这种情况,泽尔腾提出了子博弈完美均衡概念。所谓子博弈就是原来博弈从某一历史以后的过程看作一个小的展开型博弈,子博弈完美均衡概念就是这样一个策略组合,每个博弈者在每个轮到他行动的历史点的策略选择总是最优的(给定其他人的策略),不论按照策略组合这段历史是否发生。库恩用逆向递推法(backward induction) 证明,任一完美信息博弈都存在子博弈完美均衡。
|