《隐藏的博弈》 哈希解读
《隐藏的博弈》| 哈希解读
你好,欢迎每天听本书,我是哈希。今天为你解读的书是《隐藏的博弈》。这本书很有意思,它是用博弈论这个思维工具,来解释人类的一些看似非理性的偏好或行为。
比如,为什么人们有时候愿意无偿地去做一些事,帮一些人?为什么某个地区的人们会喜欢一种特定的食物做法或者口味?为什么有的人喜欢炫耀,有的人却喜欢低调?为什么大家都知道应该“以和为贵”,但还总是忍不住想“以牙还牙”?等等。
我们知道,传统经济学有个经典假设,就是人是理性的,都在追求用最小经济代价去获得最大的经济利益。但是后来,行为经济学又提出来,人是非理性的,我们有很多没法避免的思维偏误、心理效应,等等。
而这本书呢,是又往下挖了一层,告诉我们,其实人们的很多看似非理性的行为或者偏好,背后都有理性的原因,是博弈的结果。这本书的两位作者,摩西·霍夫曼还有埃雷兹·约耶里,分别在哈佛大学经济系还有麻省理工学院任教。他们想通过这本书告诉我们,很多时候,我们以为自己是被情绪、被喜好驱使着去行动,其实驱使我们的,是在漫长的人类演化过程中,早已种植在我们基因里的那些,隐藏的博弈策略。这也是这本书的书名《隐藏的博弈》的由来。
好,接下来,我们就来跟着他们一起,用博弈论来拨开生活迷雾,更好地观察我们身处的这个世界。
首先,我们要掌握三个跟博弈论有关的,很重要的思维工具。别担心,这并不是一项枯燥的学习任务。其实,了解这些工具的这个过程本身,就能帮我们理解很多现象背后的逻辑。
首先这个思维工具,叫纳什均衡。作者强调,它是整个博弈论中最重要的概念。你可能也听过它。它的提出者是数学家约翰·纳什。纳什均衡描述的是博弈当中呈现的一种特定的均衡状态。在这种状态下,所有的参与者,都不能单独改变自己的行动策略。因为谁改变,谁就会遭受损失。
数学家纳什对这个均衡的解释,是一套数学语言。其实不用那么高深,我们用日常现象也能解释它。比如,一个小城市里,有几家汉堡店,都扎堆开在市中心,竞争很激烈。有人好奇,为什么不分散开店呢?一人占据一块地方,不好吗?
但是,如果我们从某一家汉堡店的角度来看,就会发现,他是不可能去别的地方的。为什么呢?我们想,假如你是第一个开店的,如果你不开在市中心,而是开在城南边,那这个时候如果有竞争者来了,直接把店开在市中心,那他的客源就会比你多。所以,第一家开店的,肯定会开在市中心。
那后面来的呢?他们想的其实也是这样。只要他没有在市中心开店,那肯定就有一部分的市场要让给别人了。他怎么能让自己还没开始竞争就输了呢?所以最后,所有的店都开在市中心了。这就是这个场景下的纳什均衡。
你看,表面上看,在哪里选址,好像是自由的。但是,在一个多方参与的博弈格局里,每个人都要以其他人的行为为前提,去做出对自己来说最好的选择。人人都这样,最后就会形成纳什均衡。这个时候,只要有人改变策略,他就会遭受损失。
那么,我们这里说的这个“损失”,指的是什么呢?
你的第一反应可能是:那肯定是金钱呀!但是,在博弈论里,并不是。博弈论里所有讨论的“损失”“收益”,指的都是初级奖赏的变动。
这里出现了一个词,初级奖赏。这就是我们要说的下一件思维工具,这是一组对比概念,初级奖赏和次级奖赏。
初级奖赏指的是那些深深刻在人类基因里的,我们生来就喜欢的东西。比如食物、性、安全、健康,另外还有一些社会性的东西,比如信任、名望和权力。
但是,这里并不包括金钱。因为金钱不是我们生来就喜欢的,而是我们长大以后知道了,金钱能换来很多我们前面提到的初级奖赏,我们才会喜欢金钱。
这也能帮我们理解,为什么在生活中,有时候金钱激励会失效。比如有的时候,没有报酬我们也会努力地去做一些事或帮一些人,没人给钱让我们说一些话,我们也会主动去说。很可能我们想要的不是钱,而是一些初级奖赏,比如信任、名望,等等。还有,有一项有意思的研究,是在一家幼儿园里,颁布一条新规则,说以后家长接孩子如果迟到,就按时间来收罚款。结果,迟到的家长更多了,到得也更晚了。这是为什么呢?原因就在于,原本接孩子迟到,对于家长的惩罚是一种社会谴责,但是,引入罚款之后,家长就会想,虽然我迟到,但我交了钱呀,罚款就相当于托管费了呀;他们就不再担心迟到了会让幼儿园的人不高兴,会让其他家长觉得自己不称职。这就让金钱抵消了社会谴责。
好,说回来。我们已经讲清了,金钱不属于初级奖赏,因为它是一种要通过后天学习才会喜欢上的东西。这类东西其实也有个名字——次级奖赏。
除了金钱,还有哪些东西属于次级奖赏?有很多。比如,你的一些爱好,像画画、唱歌、集邮、运动,等等,还有你喜欢的某种香味、某种声音,或者,很多人都努力追求的职称、发表作品,等等。这些,都属于次级奖赏。而这些,都不是博弈论所关注的对象。
博弈论,是一种分析初级奖赏的工具。在博弈论中,一切“收益”或者“受损”,指的都是初级奖赏的增或减。这个思路本身,其实就能帮我们看透一些表象背后的、更深层的东西。这就要说到,我们的第三个思维工具,也是一组相对的概念,近端解释与终极解释。
什么意思呢?比如最简单的,为什么印度菜的香料味很重?近端解释是,印度人就爱吃这种口味。这关注的是次级奖赏——口味偏好。而终极解释是,香料能抑制和杀死那些会让食物变质的细菌。这在气候炎热的地区很有用。这关注的就是初级奖赏——健康和安全。
还有,生物学家发现,美洲原住民喜欢在煮玉米的时候,往水里扔一些烧过的贝壳或一点儿木灰。如果你去问他们为什么这么干。很多人会说,“这样更好吃”,或者,“我们祖祖辈辈都是这么干的”。但这其实是近端解释。而生物学家不满足于这一层,发现了终极解释,那就是,用碱性溶液浸泡玉米能释放玉米中的维生素B3(也叫烟酸),增加玉米的营养价值,让当地人不会得糙皮病。
还有,在斐济这个地方,女性在怀孕和哺乳期间,要严格遵守一些饮食禁忌,不吃某些特定的鱼类,比如鲨鱼、梭鱼和海鳝。但她们平时经常会吃这些。对于这件事,如果你去问一位女性为什么,她很可能会说,是我妈妈嘱咐我的,我们这儿都是这样的。但是生物学家不满足于这一层,发现了终极解释,那就是,那些鱼里面含有危险的雪卡毒素,过多的雪卡毒素会让人生病。而女性在怀孕和哺乳期间更容易受到毒素的影响,毒素还会伤害到孩子。而其实类似的,中国的很多关于“坐月子”的习俗,也是在过去医疗卫生条件比较差的时候,为了尽可能防止女性生病采取的保护措施。
这就是近端解释和终极解释的区别。虽然,近端解释有时会很有趣,或者能解决一部分问题,但这绝对不是结束,也算不上一个令人满意的答案,我们需要找到终极解释。而这正是博弈论所关注的。
比如说接下来我们要讲的这个,博弈论中的高成本信号理论,就是终极解释中的一种。
“高成本信号理论”,听着高深,其实很简单。举个你熟悉的例子。雄孔雀为什么喜欢炫耀自己的长尾巴?近端解释是,为了吸引雌孔雀。但是,到这一层,还不够,雌孔雀为什么会被长尾巴吸引?长尾巴有什么作用?
终极解释是,长尾巴代表了,这只雄孔雀大概率是身强体壮的。因为如果是体弱的雄孔雀,拖着一条长尾巴,很难躲避天敌。那么注意,在这里,长尾巴就是一种高成本信号。不管雄孔雀身体好不好,养长尾巴都是一件高成本的事,但是对于那些身体好的雄孔雀来说,成本要相对低一些,养得起。所以长尾巴就成了能展示雄孔雀强壮的一种信号。
我们再重复一下这个“高成本信号”的逻辑,就是不管发送者是什么类型,发送这个信号都是一件高成本的事情。但是,对某一些特定的群体来说,成本要相对低一些,发得起这个信号。所以,这个博弈里最重要的纳什均衡是这样的:当且仅当发送者是“高级”时,它才会发出高成本信号。这就能让信号的接收方把这个群体给筛选出来了。
用这个逻辑,也能理解,为什么从古至今,人类都经常喜欢一些中看不中用的东西。比如最简单的,在家里摆一些脆弱昂贵的艺术品,穿戴一些繁琐复杂的首饰,表面上看是审美、是喜欢,但是终极解释是,为了释放一种高成本信号,告诉别人我经济实力强。所以,很多人对奢侈品着迷,本质上是对“释放高成本信号”着迷。想想,如果我们能在便利店花50块钱就买到一块劳力士手表,还会有那么多人想拥有一块吗?
所以,追溯全球历史,人们追逐的审美、口味、偏好在不断变化,这背后的逻辑,很多时候就是高成本信号模型。
比如肤色。我们知道,以前,在欧洲的农业社会时期,只有很富、不用工作的人才能拥有白皙的皮肤,所以人们以白为美,中世纪的欧洲女性甚至会用有毒的铅来漂白皮肤。但是工业革命之后,越来越多的人开始在工厂里干活,后来又是坐办公室,所以白皮肤很常见了,不再是高成本信号了。而相反地,有足够的时间晒太阳、在海边度假反而是一件奢侈的事了。所以,人们又转而喜欢上了小麦色皮肤,在欧美尤其是这样。
还有,对食物的口味。从中世纪和文艺复兴初期的食谱里,我们其实可以看出,当时各个阶层的欧洲人都是糖和香料的重度爱好者。那个时候糖和香料是进口的,很贵。普通家庭只能在隆重场合用,而商人和贵族经常这么吃。但是后来,随着欧洲与印度贸易的发展,糖和香料的价格下跌,所有家庭都用得起了。原本的高成本信号坠入了凡尘。所以,在法国路易十四统治期间,又流行起了一种新的烹饪风格,保留食材的原味,简化调味。
还有,礼仪。我们从一些电视剧里可以看到,过去的贵族要遵循各种复杂的礼仪。比如,传统的英式贵族餐桌上,吃虾、沙拉和主菜要用不同的叉子,还有三四个不同的高脚杯。为什么非要这么麻烦?不这样就没法吃饭了吗?当然不是,这也是一种高成本信号。精美的餐具代表你买得起他们,良好的餐桌礼仪代表你不仅有钱,还出身高贵,有专门的人教你这些。但是,在当下,复杂的餐桌礼仪渐渐不受追捧了,有一个重要原因就是,现在网络发达了,任何人,只要想学,在网上找个教程就能学会。我们会看到,现在很多高档餐厅又开始走向另一种“极简用餐”风格。比如,美国最高档的餐厅之一,芝加哥的米其林三星餐厅阿利诺(Alinea),餐具非常简单,有的食物甚至不用盘子,直接放到桌子上,客人就从桌上舀着、拿着吃。
当然,到这里,我们说的这些,都很好理解。这些都是在非常明确地对外发送高成本信号。不过,书里还讲到一个有意思的现象,就是,有些人会刻意去隐藏一些高成本信号。
比如,作者说,在美国,有些哈佛大学的学生并不会直接说自己是哈佛的,别人问他在哪里上学,他会回答,“在波士顿那边”。就像在国内,有的人问清北的学生的家长,孩子在哪上学呢?可能有些家长会笼统地说,在北京上学。
为什么会有像这样的,隐藏优势信号的行为呢?比如隐藏自己的财富、成就、优点,都算。
你可能会说:那我直接说出来,显得多不谦虚呀。不如等着对方追问呢,这样还能显得我很谦虚。
确实,这是一种原因。书里讲到一个故事,有个叫老李的有钱人,给当地一家美术馆捐了一个新的展厅。他去参加落成典礼,看到自己的名字在展厅门口,觉得很满意。可是一转身,发现美术馆的另一个展厅的捐献者,居然是匿名的。他马上就高兴不起来了。他跟爱人说:“好嘛,现在显得我像是为了名声才捐的了。”
后来,情况更糟了。参加典礼的人都想知道匿名的人是谁,后来大家打听出,原来是老谭。这个老谭正是老李的死对头。老李听着大家都在夸老谭,生气地走了。回家路上还跟爱人吐槽:“没人跟我说可以先匿名,然后再告诉大家呀!不然我肯定也这么干。”
那在这个故事里,可能老谭就是想通过先隐藏信号,再暴露出来,加强人们对他这个信号的印象,还能额外地释放一个“我很谦虚”的信号。
不过你可能会说,那这样有风险呀,万一大家都不好奇呢?不就白捐了?
的确是这样。所以,还有一种更大的可能性是,老谭并不是很在意,是不是所有人都知道他捐赠了。
为什么呢?有可能老谭已经是一个特别有名的企业家了,还做过很多慈善,不需要用这一笔小小的捐赠来给自己贴金。在现实中,也有很多这样的时候,就是一个人已经有很多优势了,他就不需要特意主动展现其中的某一项来博取别人关注。
还有一种可能,就是他不想对所有人都发送信号,只想把信号发送给特定的人。比如老谭可能真正想吸引的是某一位女士。他邀请这位女士来参加典礼,当他们一起进入这个展厅的时候,女士说:“真想知道这位匿名的人是谁。”老谭就可以微微一笑,轻声说:“其实,就是我。”
像这种“只想把信号发给特定的人”的情况,在现实中并不少见,但不一定这么明显。比如,一些顶级富豪并不会穿奢侈品牌的衣服,而是会找特定的设计师定制,这些衣服外表看起来很朴素,但是懂行的人却能识别出,这是花钱也买不到的顶尖设计师作品。而这些懂行的人,大概率也是身家不凡。还有,有一些艺术家,会特意在自己的作品里埋下一些线索,等待有慧眼的人发现。比如,有位顶尖的音乐家叫索科洛夫,他展现自己高超水平的方式,并不是炫耀花哨的指法,而是会在一些看似简单的经典曲目里面,加入不易察觉但很难弹的装饰乐段,只有那些真正的忠实粉丝和很懂弹琴的人才能发现。
好,如果我们用博弈论的思路,把所有这些,隐藏优势的行为背后的动机,总结成一句话的话,那么就是书里的这句:隐藏,其实本身就是一种高成本信号。是什么信号呢?它表示你能承担得起有人看不到你的一些优势信号的后果。换句话说,低调、谦逊、匿名,这些“不炫耀”,恰恰是最贵的炫耀信号。因为这代表了,你的优势,早已不需要那些无关之人的认可。
好,刚才我们说的是博弈论关注的终极解释中的一种,高成本信号模型。下面我们再来看另一种,叫子博弈完美均衡。这个是出现在博弈双方会多次过招的动态博弈里的。指的是双方的出招策略,不仅在全局上看能构成纳什均衡,在其中的每一轮过招往来(也就是子博弈)当中,也构成了纳什均衡。
听着好像挺复杂。别着急,我们先来听个故事。这是一件历史上的真事。1878年,在美国,有两个大户人家,哈特菲尔德家族和麦考伊家族。我们就简称为老哈家和老麦家吧。这天,他们因为一头猪闹上了法庭。原来,这头母猪在老哈家的地盘上下了崽儿。老哈家就说,这些猪都是我的。但是老麦家说,这头母猪耳朵上有我家的标记,这些猪应该都是我们的。他们在法庭上吵个不停。
经过了漫长的审判,最终,猪被判给了老哈家。
事情到这里就结束了吗?并没有。在这之后的10年里,这场争吵逐渐升级成了一场只能用“屠杀”和“斗争”来形容的全面战争。这10年里,双方一直在变本加厉地相互报复:打架、绑架、闯进家里打人、悬赏抓人、放火烧屋、枪战,事情不断恶化……两个家族就这么一步步地,一起走向了毁灭。
从事后结果的角度来看,两家的行为是很不理性的。有的人可能还会引用一个经济学里面的著名理论:沉没成本理论。说的是,沉没的成本已经没法收回,你在做未来决策的时候就不应该考虑它了。所以你理性的选择应该是,放下过去,向前看。
其实不仅经济学家,还有一些心理学家、健康专家、励志名人,可能都会告诉你,那些家庭创伤、那些朋友陷害、那些伴侣背叛,的确会给你留下伤口,让你想复仇。但是,如果你不肯原谅,那你的痛苦就会持续不散;只有宽恕、放下,你才能拥有真正的平静和快乐,宽恕会引领你走上身心健康的道路。还有,像中国老话也倡导“以德报怨”“以和为贵”。
这些听起来确实很不错。但奇怪的是,为什么在漫长的人类进化过程中,“宽恕”没有成为我们的一种自然反应呢?为什么受到伤害我们第一反应还是要报复回去呢?为什么既往不咎这件事这么难呢?
这是不是因为,我们还是不够理性?
表面上看,好像是这样的,我们让情绪代替了理性思考。但是,博弈论学者们发现,这只是一种近端解释。而终极解释是,这种“以牙还牙”的策略,其实是一种动态博弈中的子博弈完美均衡。这种看起来不够理性的行为,其实是“隐藏的博弈”之中的理性选择。
什么样的博弈呢?你可能听过囚徒困境,说的是两个囚徒,虽然从全局角度来看,两人都不招供是最好的,但是如果设置的惩罚是,你被对方单方面指认了,就会受重罚,那么两个囚徒从自身的利益考虑,都会选择背叛对方,把对方供出来。
但是,你可能也听说过,囚徒困境的解法就是,增加博弈的次数,把单次博弈变成重复博弈。比如说,如果这两个囚徒都是一个组织里的,即使暂时坐牢了,出来以后肯定还会再见面的,那他们互相背叛的概率就会降低。
其实,到这里,事情还没有结束。如果我们构想这么一个多轮的动态博弈,每一轮,博弈双方都可以自由选择是合作还是背叛。那么其实,选择在每一轮里都合作,并不是对个人来说最优的策略。
那最优的策略是什么呢?学者们经过数学计算和计算机模拟,得到的是这么一个策略,就是在每一轮双方都同时做出选择的情况下,你作为其中一方,第一轮你先选择合作,之后的每一轮,都复制对方的上一步——他合作,你就合作;他背叛,你也背叛;他改正重回合作,你也改正。这个策略,名字就叫“以牙还牙”。
要在现实中使用这种策略,我们记住三件事就可以了:第一,要先亮出合作的、友善的态度,不主动伤害别人;第二,不要忍气吞声,如果对方背叛了你,你也背叛他;第三,如果对方改正,你也继续合作,而不是咬住不放,不停地背叛。
但是,你可能会注意到,这种策略应用的前提是,双方每一轮要同时做出选择。那如果是双方轮流出招,最优策略是什么呢?
这其实就是另一种博弈形态了,叫“重复惩罚博弈”。在这个博弈里面,每一回合,都是第一个人先行动,选择合作还是背叛,然后第二个人再行动,不过第二个人选择的就不是合作还是背叛了,而是要不要惩罚第一个人。
那么我们想想,在这样的重复惩罚博弈里,子博弈完美均衡是什么?
可能我们的第一反应是那肯定是“第一个人每次都合作,第二个人每次都不惩罚”,这样才皆大欢喜呀。
这是不是子博弈完美均衡呢?并不是。你看,我们刚才说了,子博弈完美均衡,是要求不仅在全局上看能构成纳什均衡,在其中的每一轮过招往来(也就是子博弈)当中,也构成了纳什均衡。但是,如果第二个人每次都不惩罚,那么,第一个人看背叛有利可图,那他肯定会选择背叛。这就不符合纳什均衡的定义了。因为在纳什均衡里,所有人都是不愿意改变自己策略的,谁改变谁就损失。
好吧,那我们改成“第一个人每次都合作,第二个人只有在第一个人背叛的时候才会惩罚”,这样就合理了吧?的确,如果惩罚的伤害大于背叛的收益,那这种策略在全局上就能构成纳什均衡。
但是,这还不够,因为子博弈完美均衡,不仅要求全局上是纳什均衡,在每一个回合(也就是子博弈)里,也要是纳什均衡。
我们刚才的策略能不能实现这点呢?是不能的。下面的这段解析可能有点烧脑,如果你愿意挑战,咱们就一起捋一捋。或者你也可以直接记最后的结论。
我们来想,如果第一个人的策略是每次都合作,那么第二个人在设想第一个人有偶尔一次背叛的时候,还有动机去惩罚他吗?如果惩罚是要付出成本的,要耗费人力物力,那可能第二个人就不去惩罚了,因为下一轮第一个人还会是合作,惩不惩罚就无所谓了。而如果第一个人也知道这一点,那么他就有动机去背叛,这一套想下来,就会破坏纳什均衡。
所以,这里的关键就在于,要能保证,只要第一个人背叛,第二个人就一定会选择惩罚。怎么实现这一点呢?我们要在前面的策略里面加上一个条件,变成:
只有当第一个人看到,之前所有的背叛行为都得到了惩罚,他才会选择合作。否则,他就背叛。
这样的话,第二个人如果不惩罚背叛行为,之后就会承受损失了。那他一定会对背叛行为做出惩罚。这才能构成子博弈完美均衡。
这一整个推导过程,其实通往的是一个非常明确的启示,那就是:在重复博弈中,必须要让过去的事情变得重要,这才是能维持合作的唯一途径。而不是按照沉没成本理论,过去的就让它过去吧。在只涉及自己一个人的时候,我们做决策的确可以不考虑沉没成本。但是,在双方多次博弈的情形中,“既往不咎”绝不是好选择。
总结来说,博弈论告诉我们的是,有条件的合作要好过无条件的合作,“以直报怨”要好过“以德报怨”。那种无条件的合作,乍一听,好像是达到了一种更高的道德水平。但是,这会鼓励不守规矩的人去欺负守规矩的人,坏心眼的人去欺负善良的人。而对背叛有惩罚,至少是有可以惩罚的威慑力,才更有利于长久的合作共赢。所以,看起来不够理性的“以牙还牙”,其实正是“隐藏的博弈”中的理性选择。
那么,这是不是说,这部分开头我们提到的,老哈家和老麦家的惨剧,是必然会发生的了?也不是。他们的问题在于,当一次背叛已经受到了惩罚,回合已经结束之后,在新的回合里,他们并没有采用我们刚才说的,子博弈完美均衡的策略,而是采用了另一种“始终背叛,不断惩罚”的恶性循环策略。而这是所有策略中的下下之策。
好,以上,就是这本书里,我想跟你分享的重点内容。
除了刚才我们讲到的这些问题以外,书中还讨论了一些其他问题,比如:为什么很多人讲话都喜欢拐歪抹角?为什么世界上的人们不约而同会遵守“先来后到”这个规矩?怎么识别出别人在用片面的证据说服你?是不是真的“唯有热爱,可抵岁月漫长”?感兴趣的话,欢迎你点击文稿末尾的电子书,继续这场“偶尔烧脑,总是有趣”的冒险,用博弈论的思维,去探寻这个世界上的那些“终极解释”。
好,今天这本书,我们就聊到这里。你可以点击音频下方的“文稿”按钮,查收我们为你准备的全文和脑图;你还可以点击右上角的“分享”按钮,把这本书免费分享给你的朋友。恭喜你,又听完了一本书。
划重点
1、很多时候,我们以为自己是被情绪、被喜好驱使着去行动,其实驱使我们的,是在漫长的人类演化过程中,早已种植在我们基因里的那些,隐藏的博弈策略。
2、纳什均衡是整个博弈论中最重要的概念,在纳什均衡状态下,所有的参与者,都不能单独改变自己的行动策略。因为谁改变,谁就会遭受损失。
3、隐藏,其实本身就是一种高成本信号。
4、“以牙还牙”的策略,其实是一种动态博弈中的子博弈完美均衡。这种看起来不够理性的行为,其实是“隐藏的博弈”之中的理性选择。