在这样一个理想化的理性的均衡行为观念下,均衡是瞬间实现的;在博弈之初,历史已经一览无余,所有历史过程只不过是沿着均衡路径的展开 。一次制度变迁的完成,表现为从一个均衡实现阶段到另一个均衡实现阶段的过渡,只不过是这个先验合理过程——均衡路径上的一个环节。
显然,这样的理解容易受到多方面的怀疑。Fudenberg & Levine (1998)指出几个问题:当博弈存在多重纳什均衡时,博弈者如何协调他们的信念以选择一个特定均衡是不清楚的;关于博弈本身的普遍知识很难建立;均衡理论在解释大多数实验中最初回合的行为上是糟糕的,即便对后来的回合的解释稍好些;从非均衡到均衡的跃迁在纯粹内省的理论中很难得到调和。
虽然知识论基础的要求是如此之强以致我们很难认为它是现实的,但是正如Weibull (1998b)所指出,如果我们能够表明博弈者“好象(as if)” 是具有很好的理性和知识一样行为的,那么这就为研究者采取这样一种描述或解释世界的方式提供了合理性辩护。现在很活跃的学习和进化博弈理论 ,就是要在更弱也更合理的假设上探讨博弈者的长期行为,以便达到与知识论殊途同归,甚而给出更丰富的结论。
一般来说,如Kandori(1997,243-244)所指出,在现代文献中,学习和进化被模糊地加以区分。关于学习的研究通常假设在一个固定匹配博弈中博弈者可以计算出最优反应,并探讨他们如何更新关于对手的策略的信念;而进化论的研究则并不必然假设博弈者具备最优化的能力,主要分析合理行为通过试错(trial and error)以及在博弈群体中的自然选择而进化 。这样的区分意味着,进化可以看作仅仅要求最弱意义的理性,通常是仅仅具有根据过去的经验和观察调整那些成功和失败的行动被选择的机会的能力。
相对于知识论的博弈论奠基于“一致性(consistency)”及其拓展“人际间一致性(interpersonal-consistency)”观念之上,进化博弈理论的核心是稳健性(robustness)检验 。对决定论动力系统而言,最基本的稳健性是,有限时间内系统状态对系统初值和参数的连续依赖性;进一步,我们关注的是长期行为而非短期行为,那么有李雅普诺夫稳定性 ,渐近稳定性 ;以及在参数扰动下的结构稳定性(structural stability) 。这是拓扑式的整体性观点。另一方面,是统计式的整体性观点。如对非决定论的马尔可夫过程,概率论中的各种极限定理 的应用,如大数定律、中心极限定理和遍历定理 ,都能揭示出在不同意义上的稳健性。
进化博弈理论的主题之一是探讨,从长期和大范围来看,博弈者通过学习与进化,他们的行为模式在极限或统计意义上是什么 ,以此为经典博弈理论中的理性行为(包括均衡行为)提供合理化论证(justification)。这样,足够长时间的试错、学习、调整和适应机制就与关于博弈的“知识系统”起到类似的作用。特别地,针对纳什均衡及其精炼(如进化稳定策略 ),有众多结果刻画了在什么条件下,均衡解可以看作是进化和学习的收敛或统计意义上的近似,即Young (1998,662)所谓的“高理性的解概念能够从低理性的环境中涌现,如果我们赋予这个过程足够的时间进化。换句话说,社会反馈机制可以取代在个体方面的知识和推理能力的高水平。”
当然,现在的文献过于集中在收敛过程上了,而非线性动力系统向我们揭示出现实世界可能具有出人意料的复杂性。人类社会的博弈历史也体现出这种复杂性,甚至学习和进化本身就会导致这种复杂性循环和混沌(Ponti, 2000; Schonhofer, 1999)。
详细罗列这个快速发展着的领域的成果几乎是一项不可能的任务,也不是我们此处的重点。我们讨论几个基础问题,这些问题可能只有在后文强调的主观博弈的框架内才会得到更好的处理。
其一,对长期(long-run)行为的关注意味着我们(作为研究者和观察者)隐含地假设进化(收敛)速度是很快的,这样我们才会把关注的焦点转向博弈者在重复着的博弈场景中的极限行为,而不是那些稍纵即逝而不易观察的短期行为。如果在一个变革不断发生而几乎不可预见的世界中,我们如何知道博弈者处在进化过程中还是进化已经完成?
其二,如Mailath(1998,1355)所描述的,进化博弈理论假设博弈者“不相信或理解,他们自身的行为潜在地影响其对手的未来行动,并且他们不考虑对手也类似地调整自身行为的可能性”;“他们做出行为时好像世界是固定的,即使他们自身的行为也向他们揭示出并非如此”。
其三,几乎所有目前研究进化博弈的文献都是假设同一个博弈场景重复出现,或者说今天的博弈结局并不影响明天的博弈环境。那么,如同区分均衡策略行为与趋向均衡的试错、学习和适应行为,博弈者如何认识两个不同博弈合成的场景?其中一个是固定而重复上演的,一个是新涌现的舞台。如果不能识别这两者,那就永远处于进化和学习过程中。
其四,与知识论框架同样,现在的进化博弈模型还没有很好地处理知识创新和技术进步。这是因为大部分模型通常是在环境和技术 不变的假设下,探讨博弈者如何通过试错和学习来选择合理策略与行为的。在多人互动的局势内,由于创新的本质在于,它至少对某些博弈者来说是“无知(ignorance)”的,从而博弈者之间存在异质性,但进化博弈的对称化处理通过博弈者能够模仿的预设把这个特点给掩盖了。也就是说,在进化博弈的框架内,创新和知识进步成了不证自明的前提。但是,在固定游戏中通过学习搜寻到最优(均衡)策略(博弈结构固定)与创新游戏的玩法(发现新的博弈结构)是不同的两回事。把通过试错脱离一个过去的博弈结构及其均衡的行为简单地看作一种趋向均衡的行为,容易漏掉一些重要的信息。
|