罗伯特·艾克斯罗德(Robert Axelrod)是密歇根大学公共政策学院的一名教授。他以研究“合作演化”而成名,荣誉清单上列出了包括美国科学院院士,麦克阿瑟奖等一长串名字。我第一次知道他的名字是在昨天的一个学生沙龙上。这期关于博弈论的沙龙里提到了艾克斯罗德教授做过的一个著名实验,而实验的结论颇有戏剧性——和人相处中,虽然要与人为善,却不能做一个烂好人。
这项实验的最初目的是探究“人为什么要合作?人在什么时候选择合作?如何使别人与你合作?”这几个问题。每次实验都在A,B两方之间进行,而实验的内容则像是一个小的囚徒困境。举例来说,如果A和B都选择合作,他们可以各获得5分;如果A和B都选择不合作,那么他们则各获得1分;如果A选择合作而B选择不合作,则B可以得到10分,而A则要扣去5分。反之亦然。从这里可以看到一个绝对优势策略,即无论对方合作不合作,自己只要不合作,那必然是一个更好的结果(对方合作,自己不合作可以拿10分,而选择合作只能拿5分;对方不合作,自己不合作可以拿1分,而选择合作只能扣5分)。由于A和B都有同样的考虑,所以两个没有变数的聪明人只会选择都不合作,各拿1分走人,虽然这并不是一个群体最优的情况(两个人都合作严格好于两个人都不合作)。
生活自然不会像单个囚徒困境那样只有一次选择合作与否的机会。在现实生活中,新认识的伙伴往往会倾向于合作,有些人在有一段合作关系后就有了信任,而另一些人则会利用这种信任在背后捅合作伙伴一刀,而这些人不佳的名誉则会影响之后别人与他们的合作。为了模拟现实生活中的状况,艾克斯罗德教授请了许多学生和教授各自开发了总共60个算法来替代人进行实验。这些算法如同人一样有着自己的性格。比如有的算法只要被欺骗一次,之后对欺骗者就一直采取不合作的态度。也有的算法对欺骗过自己的人有着一定的宽容。在这60个算法之外,艾克斯罗德教授又加入了3种性格:永远合作的烂好人,永远不合作的纯坏蛋,以及永远一半几率合作一半几率不合作的神经病。
这63个算法每两两之间进行了数百次模拟的博弈实验。可以想象,总的模拟数字非常大。在对所有的组合打分并求和排序之后,艾克斯罗德教授得到了一个有意思的结果:总体来说,倾向于选择合作的“善意”算法排名要远高于倾向于不合作的”恶意“算法。在得分前15高的算法里,只有一个恶意算法(哈灵顿算法,之后再提)。而排名最低的15个算法里,只有一个善意算法。没错,就是那个永远选择合作的烂好人。
在这63个算法中,排名最高的被称为”一报还一报“算法。它是这么定义的——第一次见面先选择合作,之后重复上一次对方的选择。可以想象,如果他碰到的是一个总体善意的算法,那么两个算法之间会进行很多次合作。而如果碰到恶意算法之后虽然会吃一次亏,但因为有了报复的行为,总体来说亏得也不会太多(大不了大家都不合作么)。
这个结果可能是出乎人意料的。因为在一般人的想象中,如果要在与人合作中获得最大的利益,似乎要有一个非常复杂的决策过程。而这个算法只是简单重复之前对方的行为而已。这看上去压根就不像是一个好的策略。不过从这个算法里也可以抽取出一个”成功者“的五大个性——善良(总体愿意合作),可激怒(人若犯我,我必犯人),宽容(只要你不是一直陷害我,那么扯平之后我愿意继续合作),简单(只要模仿对方的行为),不耍小聪明(不会突然捅别人一刀)。
不耍小聪明这一点是针对之前提到的哈灵顿算法而言的。哈灵顿算法可以说是一个狡猾的算法。它有一套自己的评判体系。如果它觉得对方是一个可以欺负的好人,那么就会突然背叛,选择不合作,从而让自己获利。可见,这种算法能从善良并软弱的算法身上得到很多分数。这也是它能排名前15的原因。
当然这个实验从总体设计来说是简单的。为了更好模拟现实中的情况,我们的艾克斯罗德教授又进行了一下小改动。在每轮博弈结束后,所有的算法会根据得分而排名。排名前的算法会进行自我复制,排名后的算法会被淘汰。如果总数不变的话,可以近似理解为那些得分低的算法学习了得分高的算法。这就像生活中一样,吃过亏的人会学习别人的经验。
最后的结果令人惊叹。在63个算法中,”一报还一报“算法占到了24%,而恶意算法则表现拙劣。在前一个实验中通过欺负好人得分的哈灵顿算法,因为好人慢慢变谨慎的缘故,开始拿不到足够的分数。随着天真的好人从这个社会中消亡,以这些好人为食的恶人也随之消亡了。
所以这个实验的结论就是“毫无原则的烂好人一定会被欺负,并且很有可能会带坏社会风气”(考虑到恶意算法的存在)。因此艾克斯罗德教授教会我们做人的道理就是要做一个“有原则的好人”。
用沙龙中的一句话结尾:“共同演化会使有原则的好人行为在这个充满背信弃义的世界里蔚然成风”。