逆向递推法其实早被策梅罗用来证明一个定理,那就是象国际象棋、中国象棋、围棋等游戏本质上存在最优下法。另外,斯塔克博格的领导者——追随者模型也是可以用逆向递推法来求解。但这个方法也带来很多直觉上让人难以接收的结论。以下是著名的两个例子。
连锁店悖论(chain-store paradox)一个连锁店经营者(在位者)在很多城市开了分店。在每个城市,如果潜在竞争者不进入,那么他会得到比较高的垄断收入,竞争者得到零。如果竞争者进入,那么在位者可以选择战斗或妥协,战斗的结果是两败俱伤,每人都得到负效用;妥协的结果是在位者得到比垄断收入低的正收入,竞争者得到正收入。显然,在最后一个城市,竞争者进入,在位者妥协是对双方都是最优的,依次类推,在所有城市,结果一样。
蜈蚣博弈(centiped game)。两个人做一个博弈,轮流具有停止博弈的机会。每个人都偏爱如果由他终止博弈的结局胜过下面由对手终止博弈的结局。但如果在这两个阶段都不终止,那么他就会得到更好的结果。这个博弈的子博弈完美纳什均衡(也是对应的策略型博弈的唯一纳什均衡)是,第一个人立即终止博弈。如果博弈的阶段足够多,这个结果是很违背直觉的。他们为什么不多玩几次呢?
与这两个例子类似,著名的囚徒困境在完全信息下有限次进行是“走不出”困境的。因为最后一次博弈背叛是占优策略,倒数第二次仍然如此,依次类推,每次博弈都会选择背叛。
解决这些问题有以下几条途径。一是无穷次博弈,如对囚徒困境,著名的无名氏定理就证明,所有帕累托优超于一次性博弈纳什解的结果都有可能出现,特别是冷酷战略,即以合作开始,但如果发现对手是背叛,那么就惩罚以背叛并至永远,只要贴现足够大,就可以使得合作成为均衡结果。二是有限理性。这又分为几种情况。其一,用比纳什均衡更一般的解概念如“ ”;其二,假设每个博弈者有一定的概率是“非理性”的,比如他总是采取针锋相对策略,如果大家都知道这点,那么在有限次重复的博弈中也会产生合作的结果,著名的“四人帮”模型就证明了这点。这种方法的关键就是“声誉”,博弈者可以通过建立某种声誉来实现较好的结果。连锁店博弈中在位者可以通过对进入者的竞争行为给潜在进入者造成会继续竞争的印象(实际上竞争没有发生,但问题关键是,只要潜在进入者相信他会这么做)。按照奥曼的看法,把这个方法一般化就是,其三,放弃“普遍知识”假设,包括引入对博弈者的推理能力和执行策略的计算复杂性限制,博弈者对博弈进行阶段的不确定,等等。
与第二种方法有关,非完美信息展开型博弈也就被引入来了。如奥斯本和鲁宾斯坦所总结的,非完美信息展开型博弈与前面的博弈的不同之处在于,博弈者可能对过去做出的选择不能完美地了解。在所有的博弈中,博弈者都会对他所不能确知的东西形成一个预期以做出行为选择。但是,与策略型博弈不同的是,这些预期不能仅仅从博弈者的均衡行为得出,因为他可能需要面对的是与均衡行为不协调的情境;也不像贝叶斯博弈,这些预期不能仅仅从均衡行为和关于机遇(自然)的变动的外生信息推论出来;与完美信息展开型博弈情况不同,它们不仅与其他博弈者的未来行动有关,而且与过去发生的事件有关。
由于策略包含博弈者的信息集,而信息集反映了博弈者对博弈历史的知识,所以此时的均衡解概念应该包括博弈者在每个信息集时的关于已经发生历史的信念。如果我们把理性理解为“在某种信念下的最优选择”,那么纳什均衡也就能被相应地定义。
通过对博弈者的信念施加不同的限制条件,特别是在非均衡路径上的信念,有三个文献中经常出现的强弱程度递增的解概念,即富顿博格和泰罗尔的完美贝叶斯均衡(perfect Bayesian equilibrium)、克莱普斯和威尔逊的序贯均衡(sequential equilibrium)、泽尔滕提出的颤抖手完美均衡(trembling-hand perfect equilibrium ) 。
这些解都是纳什均衡的精炼(refinning)(van Damme, 1992),它们在剔除具有不合理行为的纳什均衡方面发挥着重要作用。而在丹密看来,博弈论学者的种种探索努力只不过是受下述目的驱使:“理性决策的理论不应该是自我破坏的预言,以致使那些相信它的人产生偏离(理论预言的行为选择)的激励” 。所以理论要提供一个自我实施(self-enforcing)的行为范式(norm of behavior),而这个范式(或协议(agreement))构成一个纳什均衡是自我实施性质的必要条件。因此非合作博弈理论就要分析这几个论题:哪一个协议是自我实施的(均衡定义问题)?如何或者在什么条件下博弈者会达成一个协议(均衡得到问题)?哪个协议可能成为最终结论(均衡筛选问题)? 。
但是,“如果博弈模型是不完全的,那么一个人在不知道模型的不完全性由什么组成,也就是不知道博弈在其中进行的场景的情况下,他就不能区别出哪一个均衡是自我实施的” 。而博弈模型的完全性意味着“任何(事先的)承诺可能性,任何关于重复博弈的观点,任何犯错误的可能性,或者任何一起观察到一些随机事件的可能性,都已经被模型刻画在博弈树中了” (Kohlberg & Mertens, 1986, note 3rd)。由此,并认识到前述种种博弈解概念存在的各种缺陷,科尔博格和默顿斯(Kohlberg & Mertens, 1986)提出了一个统一的,集值型(set-valued)解概念——策略稳定集(strategic stable set)。后来默顿斯改进了这篇文章中的定义,证明对每个博弈存在一个均衡点的稳定集满足诸多在博弈结构变化下保持稳定的良好性质。
最后,值得我们关心的一个问题是,纳什均衡或者它的某种推广在什么意义上构成一个博弈的解,这个解在什么程度上恰当解释了博弈者的行为选择。这就是所谓博弈论基础问题。关于纳什均衡作为博弈解用以描述人类行为的合理性,至少在纳什那里有两个解释。其一,“在所讨论的博弈中,对理性地进行博弈的可预期的行为的一个合理预测是什么?通过运用一些原则,如一个合理的预测应该是唯一的,参与人应能充分推理和利用知识,并且对于每一个参与人,关于其他参与人行动的知识将不会导致他的行动偏离这个合理的预期。这样我们就得到上面我们定义的解的概念。在这种解释下,我们需要假定参与人了解整个博弈的结构,从而能各自推导出这个预期。这是一个理性和理想化要求很强的解释”。博弈论里普遍知识(common knowledge)方面的研究就是涉及它的。其二,“大众行为”(mass action)的解释。“在经济或国际政治的一些场合,利益集团不自觉地被卷入到一个非合作的博弈之中,这种不自觉使得这个场合变成了一个非合作博弈。在这种解释下,假定参与人对整个博弈的结构有完全的知识或者有能力进行复杂的推理不是必需的。但是我们假定参与人能对他们的各种纯策略的相对益处积累经验性的信息。我们假定存在一定的参与人群并且这些参与人的“中间分子”运用纯策略有一个稳定的平均频率” 。现在很活跃的进化博弈理论(研究博弈中的学习和进化问题) 可以认为是这个方向上的深化。
社会选择理论
社会选择理论研究一个社会的价值规范问题,其核心在于个人和社会之间的关系,正如1998年诺贝尔经济学奖得主森所说“它处理如何把个人利益,判断和福利的集合转化为社会福利,社会判断和社会选择的加总形式”(Sen, 1987, 382)。
所谓社会选择,在数学上表达为一个建立在所有个人的偏好上的函数(或对应),该函数的性质代表了一定的价值规范,比如公民主权、全体性、匿名性、目标中性、帕雷托最优性、无独裁性等。社会选择最重要的问题是,这些价值规范之间是否是逻辑上协调的。在这个意义上,社会选择领域笼罩在两个不可能性定理的巨大身影之下,即阿罗的不可能性定理和森的帕雷托自由不可能性定理。
众所周知,多数原则是现代社会广泛接受的决策方法。洛克认为“根据自然和理性的法则,大多数具有全体的权力,因而大多数的行为被认为是全体的行为,也当然有决定权了”。但很多在自然法学家那里是想当然正确的东西在社会选择理论中是需要证明的。
正面成果是梅(Robert May)在1952年证明的,即一个社会福利函数是多数投票型的,当且仅当它满足匿名性、目标中性和正反应性。匿名性保证不会出现某一个人的意愿受到特别重视,也就是一人一票没有特权;目标中性指在合法的和技术可行的范围内,所有社会目标都受到同样待遇;正反应性表明,如果原来社会喜欢甲胜过乙,现在有至少一个原来喜欢乙的人转而喜欢甲,那么社会还应喜欢甲。这三条都是直觉上很合理的标准,而多数投票是唯一满足它们的。
但是,早在十八世纪法国思想家孔多赛就提出了著名的“投票悖论”:假设甲乙丙三人,面对ABC三个备选方案,有如图的偏好排序。由于甲乙都认为B好于C,根据少数服从多数原则,社会也应认为B好于C;同样乙丙都认为C好于A,社会也应认为C好于A。所以社会认为B好于A。但是,甲丙都认为A好于B,所以出现矛盾。投票悖论反映了直观上良好的民主机制潜在的不协调。1972年诺贝尔经济学奖的获得者肯尼思·阿罗,在他的《社会选择与个人价值》(Arrow, 1951, 1963.)中,把这个投票悖论形式化为著名的阿罗不可能性定理。在该书中,他运用数学工具把孔多塞的观念严格化和一般化了。阿罗证明,不存在同时满足如下四个基本公理的传递性社会选择函数:1)个人偏好的无限制性,即对一个社会可能存在的所有状态,任何逻辑上可能的个人偏好都不应当先验地被排除;2)弱帕雷托原则 ;3)非相关目标独立性,即关于一对社会目标的社会偏好序不受其它目标偏好序变化的影响;4),社会偏好的非独裁性。
|