注册 投稿
经济金融网 中国经济学教育科研网 中国经济学年会 EFN通讯社

囚徒困境中的人类理性与道德


  “囚徒困境” 也许是博弈论中最著名的案例。据说,到1975年为止已有2000多篇论文对其进行了深入的研究。两名当事人从各自的理性出发,结果却导致了非最大化的“纳什均衡”。这一事实对经济学的意义在于:它使现代经济理论的逻辑起点“理性人”和“最大化”假设面临空前的挑战,因为在“纳什均衡”中它们是绝对不相容的。在波普尔的哲学语境中,“纳什均衡”将成为现代经济理论的“证伪之剑”。正是在这个意义上,汪丁丁提出对经济学的“理性主义运动”必须进行“现代批判”。现代经济理论陷入了一个范式意义上的“两难选择”。记得几年前与同事张旭昆教授讨论这一问题时,我曾提出一个猜想:如果必须坚持经济学的“最大化”假设,“囚徒困境”中的“纳什均衡”就将在一定程度上被重新描述或改写。没有想到,最近偶尔翻阅的一本杂志却记载了一件发生于十多年前的著名实验,以毋庸置疑的事实证实了我的“猜想”。(参见《科学》1983年第9期)
  美国计算机专家爱克塞罗德(Robdr Axelrod)组织了一次针对“囚徒困境”的计算机程序设计比赛,比赛规则是根据“囚徒困境”中的前提设定的:互相合作,各得3分;互相背叛,各罚1分;欺骗(对方合作,自己背叛),得5分;被骗(对方背叛,自己合作),罚10分;经过一定回合的博弈后,以得分高低作为程序优劣的评判标准。爱克塞罗德先后收到14份参赛程序,为了便于评出等级,他又自己设计了一份“随机策略”程序。所谓“随机策略”即没有策略的“策略”,也就是随意地表示“合作”或“背叛”。他的意图是用此程序作为底线——如果有哪个得分低于它,那么肯定是非常蹩脚的。爱克塞罗德把15种竞赛程序输入一台大型电脑并让它们一一对垒,总共有225(15×15)场不同的比赛,每场比赛玩过200个回合后对结果进行统计,公布胜利者。比赛结果十分出人意料,那些以“纳什均衡”为设计主线的程序,用爱克塞罗德的话说,即以欺骗和背叛为主要得分手段的“恶”的程序并没有取得预想中的高分,得分较高的反而是那些采取合作行为的“善良”程序。而得分最高的是所有策略中最简单的,一个被爱克塞罗德称作“针锋相对”的程序,它是由加拿大多伦多大学著名心理学家拉波波特设计的。这个程序的特点是:对任一对手初次交锋均采取合作的态度,以后无论对手怎么走,均采取对手前一步的做法,即对方合作,则合作;如果对方欺骗了自己,一定要报复一次;而一旦报复过一次之后,则重新采取合作行为而不“怀恨在心”。赛后,爱克塞罗德总结出两个必赢的要素是“善良”和“宽恕”。这是一个听起来近乎乌托邦的结论,但它却是真实的。因为同时参赛的程序中有一个与“针锋相对”非常接近,所不同的只是一旦它被对手欺骗过一次后就决不宽恕,如再次与同一个对手相遇,将永远以“背叛”待之。结果这个程序的得分远远低于能够宽恕的“针锋相对”。为了进一步证实自己的判断,爱克塞罗德甚至根据“针锋相对”设计了一个名为“两怨还一报”的程序,即只有在遭受两次欺骗后才给对手一次警示性的报复,然后仍然恢复与对手的合作。加入新程序后的比赛结果显示,“两怨还一报”赢得了最终胜利。
  后来,爱克塞罗德又组织第二届比赛。每一位报名参赛的选手都收到了第一届比赛的成绩,并附有爱克赛罗德亲自撰写的分析,说明为什么“善良”及“宽恕”的策略会表现得如此优秀。确实有许多人根据推论送来了“善良”和“宽恕’的程序,有人甚至送来了“两怨还一报”的超级宽恕程序。但更多的人则采取了“狡猾”和“凶恶”的策略,他们的推论是,大部分人在读了爱克赛罗德的资料后会表现出“善良”与“宽恕”,而他们正好有机可趁。这次,爱克赛罗德总共收到62件参赛作品,他也同样地加上随机策略,把63个程序输入电脑。与上届比赛不同的是,这次比赛加入了一个新的规则,用于模拟生态环境中生物演化的过程。爱克赛罗德把某个程序在比赛中的得分看作“适应性”的度量,并以此决定该程序下一次比赛出场的次数。这样,随着一代代竞赛的推进,赛手们参赛的“生存环境”也在不断改变。比赛结果,由拉波波特设计的“针锋相对”再次显示了它异乎寻常的适应能力,它所占的比例不但遥遥领先,增长率也是最快的。而且,“善良”的策略表现出整体的优越性,前15名中只有一个是不“善良”的,而后15名中只有一个是不“狡猾”的。不过,“两怨还一报”策略这次却没有赢得胜利。爱克塞罗德事后分析说,它的失败是因为这次入围的程序中有更多细腻而诡诈的策略,能够无情地捕杀那些极度“善良”(并且几乎到了蠢笨程度)的人。从整个比赛过程看,有些程序一开始就消失了,其余大部分都是在200代之内消失的。 在“诡诈”型的程序中,有一两个在开始时有所增加,但是它们的繁盛是很短命的。有一个命名为“赫灵顿”(Harrington)的,是唯一繁衍超过200代的“诡诈”型程序。它的“后代”在150代时增长得非常迅速,但随后就逐步走向衰退,在1000代时趋于消亡。爱克赛罗德的分析表明,“赫灵顿”暂时成功的原因,在于它专门捕杀那些在它周围的,有如“两怨还一报”(性格太宽恕)这样的“傻瓜”。但当这些“傻瓜”绝迹之后,由于再也没有它容易捕食的对象,“赫灵顿”自己也跟着消亡了。这些空出来的地盘就让位给那些虽然“善良”、但却毫不“怯弱”的,象“针锋相对”那样的竞赛策略了。爱克塞罗德对此总结说:“要是你打算过得好些,那么最好是让别人过得和你一样或者更强些。······对方的成功实际上是你自己过得更好的前提。”不过,我想爱克赛罗德肯定忘了加上一句:“对待恶人,决不姑息养奸。”(关于这次实验的详细材料,有兴趣的读者可以参阅吉林人民出版社最近出版的英国著名生物学家里查德·道金斯的名著《自私的基因》一书。)
  爱克赛罗德的经典实验带给我们的启迪是深刻和丰富的。限于篇幅,许多结论只能留待下一篇文章作为本专题的结语加以阐述和讨论。但我想,所有已经知晓或刚刚知晓这场实验的人,都会和我一样,对爱克赛罗德抱有深深的谢意,因为他所拯救的不仅仅是经济学,还有人类的道德信仰。
文章评论
关注我们

快速入口
回到顶部
深圳网站建设