你带酒来,我有故事

纳什均衡

:: 人生随想 二十画生 2425℃ 0评论

约翰·纳什,生于1928年6月13日。著名经济学家、博弈论创始人、《美丽心灵》男主角原型。由于他与另外两位数学家(经济学家,约翰·C·海萨尼和莱因哈德·泽尔腾)在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响,而获得1994年诺贝尔经济学奖。

这篇文章,我们首先通过一个经典囚徒困境的案例引出纳什均衡,然后简单的介绍纳什均衡的概念,最后分享几个有趣的例子。


1. 囚徒困境

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。

此时产生了两个嫌疑人之间的一场博弈:

表中的数字表示A,B各自的判刑结果。

该案例,显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况,任何一方都不敢信任另一方,当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论,假设每个人都是“理性的经济人”,都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程:假如他坦白,如果我抵赖,得坐10年监狱,如果我坦白最多才8年;假如他要是抵赖,如果我也抵赖,我就会被判一年,如果我坦白就可以被释放,而他会坐10年牢。综合以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这样的脑筋,最终,两个人都选择了坦白,结果都被判8年刑期。

A和B都坐八年牢就是囚徒困境的一个“纳什均衡”

纳什均衡首先对亚当·斯密的“看不见的手”的原理提出挑战:按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,有时候结果会是损人不利己!

根本原因是亚当·斯密理论中的市场太过理想化。我们先看看纳什均衡到底是怎么回事。


2. 纳什均衡 vs. 帕累托最优

经济学定义:所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。

数学定义:在博弈 [公式] ​中,如果由各个博弈方的各一个策略组成的某个策略组合​ [公式] 中,任一博弈方 [公式] 的策略​ [公式] ,都是对其余博弈方策略的组合​ [公式] 的最佳对策,也即 [公式] ​对任意​ [公式] 都成立,则称​ [公式] 为 [公式] 的一个纳什均衡。

注:博弈论中,一场博弈用 [公式] ​表示,​ [公式] 表示博弈方 [公式] 的策略, [公式] ​表示收益。

纳什证明了在每个参与者都只有有限种策略选择、并允许混合策略的前提下,纳什均衡一定存在。

纳什均衡不单单是一个博弈论中的概念。在经济学中,纳什均衡经常拿来和帕累托最优进行对比。

帕累托最优:指的是资源的一种分配状态,在该状态下,任何一方都无法改善自己的状况,除非损害其他人的利益。很明显,帕累托最优是某种意义上的资源最优分配方案。

怕累托改进:指的是在某一种状态下,某些人可以通过不损坏他人利益的情况下改善的自己效益。

之所以强调某种意义上,是因为在某些目标下,帕累托最优也不是最优资源分配方案。这里和古典功利主义做一个对比。古典功利主义理想的社会状态是,社会中所有人的福利总和最大化的状态。那么按照这种标准来说,在帕累托最优基础上,我们应该使得每个人对于资源的边际收益相等——凸函数最优化的冲要条件,即在任何两个人中进行资源转移,不会使得总收益增加。

举个栗子,假设一个社会里只有一个百万富翁和一个快饿死的乞丐,如果这个百万富翁拿出自己财富的万分之一,就可以使后者免于死亡。在帕累托最优中,富翁不应该进行施舍,因为这会损坏自己的利益;在古典功利主义中,富翁应该施舍,因为富翁只是付出了对自己来说很少的一点财富,就可以救活一个生命。

纳什均衡和帕累托最优两个概念经常放在一起比较,他们有什么区别呢?这里也啰嗦一下。简单来说,帕累托最优是从静态全局的角度来看待问题,是问题的最优解,是我们的心之渴望;而纳什均衡是从动态局部的角度来看待问题,是问题求解过程中的临时解。拿囚徒困境举例来说,双方均坦白就是纳什均衡,双方都抵赖帕累托最优。

福利经济学第一定理和第二定理对他们的争论有了准确的描述:当以下三个前提条件成立时,市场竞争产生的均衡一定是帕累托最优的。这三个条件包括:(1)一个完全竞争的市场,(2)不存在外部性,(3)不存在信息不对称。这就说明亚当斯密和凯恩斯的理论都存在问题。

这条定理的确从数学上证明了亚当斯密自由市场理论的正确性,但关键的是这三个前提条件在真实市场环境中全都不能成立。市场中大大小小的垄断随处皆是,公共权益和自然环境构成了随时可以侵占的外部利益,信息的封闭和不对称更是显而易见的缺陷。既然前提条件无法成立,玩家怎么可能通过自由博弈实现隐藏在后面的帕累托最优呢?实际出现的运行平稳局面都只是纳什均衡。 至于如何打破纳什均衡从而获得帕累托最优的结果,导致了重大的方法论分歧。

自由贸易者主张:三个前提条件不成立,那就改善。通过法制、社群等手段来强化所要求的前提条件使其得到满足,继而仍是鼓励参与者自由贸易,通过合作博弈的方式打破非合作博弈下的纳什均衡;

而凯恩斯主义者则认为既然我们的目标是全局的帕累托最优,那我们的中央政权就直接按照构想的最优方案分配资源就可以了,干嘛还要通过每个参与者自由博弈的缓慢过程来逼近这个目标。

然而事实是两种方法均有不足:自由贸易者并不能真正彻底的改善前提条件不成立的问题,因为真实世界的人性确实很复杂,纳什均衡的阻力仍然存在;而凯恩斯主义者又过高的评价了公权力的能力。怎么可能指望中央政权真的是一个完全通晓经济真理,同时又毫无私心的上帝呢?他只不过是一个新进场的更可怕的博弈玩家。


3. 有趣的故事

3.1 枪手博弈

彼此痛恨的甲、乙、丙三个枪手准备决斗。甲枪法最好,十发八中;乙枪法次之,十发六中;丙枪法最差,十发四中。

问题1:如果三人同时开枪,并且每人只发一枪;第一轮枪战后,谁活下来的机会大一些?

一般人认为甲的枪法好,活下来的可能性大一些。但合乎推理的结论是,枪法最糟糕的丙活下来的几率最大。

我们来分析一下各个枪手的策略。

枪手甲一定要对枪手乙先开枪。因为乙对甲的威胁要比丙对甲的威胁更大,甲应该首先干掉乙,这是甲的最佳策略。同样的道理,枪手乙的最佳策略是第一枪瞄准甲。乙一旦将甲干掉,乙和丙进行对决,乙胜算的概率自然大很多。枪手丙的最佳策略也是先对甲开枪。乙的枪法毕竟比甲差一些,丙先把甲干掉再与乙进行对决,丙的存活概率还是要高一些。

但是在第一轮枪战后,丙有可能面对甲,也可能面对乙,甚至同时面对甲与乙,除非第一轮中甲乙皆死。尽管第一轮结束后,丙极有可能获胜(即甲乙双亡),但是第二轮开始,丙就一定处于劣势,因为不论甲或乙,他们的命中率都比丙的命中率为高。

这似乎说明,能力差的人在竞争中耍弄手腕能赢一时,但最终往往不能成事。

问题2:如果甲乙丙不是同时开枪,而是他们轮流开一枪,情况如何。

在这个例子中,我们发现丙的机会好于他的实力,丙不会被第一枪干掉,并且他可能极有机会在下一轮中先开枪。

先假定开枪的顺序是甲、乙、丙,甲一枪将乙干掉后(80%的几率),就轮到丙开枪,丙有40%的几率一枪将甲干掉。即使乙躲过甲的第一枪,轮到乙开枪,乙还是会瞄准枪法最好的甲开枪,即使乙这一枪干掉了甲,下一轮仍然是轮到丙开枪。无论是甲或者乙先开枪,乙都有在下一轮先开枪的优势。

问题3:如果是丙先开枪,情况又如何呢?

丙可以向甲先开枪,即使丙打不中甲,甲的最佳策略仍然是向乙开枪。但是,如果丙打中了甲,下一轮可就是乙开枪打丙了。因此,丙的最佳策略是胡乱开一枪,只要丙不打中甲或者乙,在下一轮射击中他就处于有利的形势。

我们通过这个例子,可以理解人们在博弈中能否获胜,不单纯取决于他们的实力,更重要的是取决于博弈方实力对比所形成的关系。

在上面的例子中,乙和丙实际上是一种联盟关系,先把甲干掉,他们的生存几率都上升了。我们现在来判断一下,乙和丙之中,谁更有可能背叛,谁更可能忠诚?

任何一个联盟的成员都会时刻权衡利弊,一旦背叛的好处大于忠诚的好处,联盟就会破裂。在乙和丙的联盟中,乙是最忠诚的。这不是因为乙本身具有更加忠诚的品质,而是利益关系使然。只要甲不死,乙的枪口就一定会瞄准甲。但丙就不是这样了,丙不瞄准甲而胡乱开一枪显然违背了联盟关系,丙这样做的结果,将使乙处于更危险的境地。

这种关系在历史上比比皆是。

三国时期,曹操势力最强,孙权次之,刘备最弱。为了抵抗强大的曹操,孙刘两家只有联合起来,取胜的几率才比较大。孙权就相当于前面例子中的乙,是孙刘联盟中最卖力的成员。在赤壁之战中,孙权出力最多,刘备实际上没出多少力。《三国演义》夸大了诸葛亮对赤壁之战的贡献,当时孙刘联军的统帅实际上是周瑜,周瑜在赤壁之战的功劳远大于诸葛亮。

南宋时期,蒙古军事实力最强,金国次之,南宋武力最弱。本来南宋应该和金国结盟,帮助金国抵御蒙古的入侵才是上策,或者至少保持中立。但是,当时的南宋采取了和蒙古结盟的政策。南宋当局先是糊涂地同意了拖雷借道宋地伐金。1231年,蒙古军队在宋朝的先遣队伍引导下,借道四川等地,北度汉水歼灭了金军有生力量。

1233年,南宋军队与蒙古军队合围蔡州,金朝最后一个皇帝在城破后死于乱兵,金至此灭亡。1279年,南宋正式亡于蒙古。

如果南宋当政者有战略眼光,捐弃前嫌,与世仇金结盟对抗最强大的敌人蒙古,宋和金都不至于那么快就先后灭亡了。

3.2 智猪博弈

猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。

那么,两只猪各会采取什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。

“智猪博弈”的结论似乎是,在一个双方公平、公正、合理和共享竞争环境中,有时占优势的一方最终得到的结果却有悖于他的初始理性。这种情况在现实中比比皆是。

比如,在某种新产品刚上市,其性能和功用还不为人所熟识的情况下,如果进行新产品生产的不仅是一家小企业,还有其他生产能力和销售能力更强的企业。那么,小企业完全没有必要作出头鸟,自己去投入大量广告做产品宣传,只要采用跟随战略即可。

在互联网行业,一个特别特别典型的案例是美团外卖和饿了么。饿了么初期投入大量资本培养用户习惯,探索商业模式,然而作为后来者的美团外卖却可以坐享这些成果,并利用充足的资本和饿了么进行持久的补贴战,市场份额一度成为外卖行业的老大。最终导致孤立无援的饿了么卖身阿里巴巴。

3.3 硬币正反面

你正在图书馆无聊的发呆,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢?

废话,当然是应该!好吧,换个问法,你应该怎么玩这个游戏。

假设我们出正面的概率是x,反面的概率是1-x,美女出正面的概率是y,反面的概率是1-y。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等(如果不相等,对方便会一直出正面或者反面,使得我们的利益最小),由此列出方程就是:

3x + (-2)(1-x)=(-2) * x + 1*( 1-x )​ ,解方程得x=3/8;

同样,美女的收益,列方程-3y + 2( 1-y)= 2y+ (-1) * ( 1-y),解得y也等于3/8。

于是,我们就可以算美女每次的期望收益是: (1-y)(2x-(1-x)) + y(-3x+2(1-x)) = 1/8元,也就是说,双方都采取最优策略的情况下,平均每次美女赢1/8元。

其实只要美女采取了(3/8,5/8)这个方案,不论你再采用什么方案,都是不能改变局面的。

  • 如果全部出正面,每次的期望收益是 (3+3+3-2-2-2-2-2)/8=-1/8元;
  • 如果全部出反面,每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。
  • 比如你用完全随机(1/2,1/2)策略,收益是1/2*(3/8 * 3 + 5/8 * (-2)) + 1/2(3/8 * (-2) + 5/8 * 1) = -1/8;

实际上,不论你用什么策略,你的收益都是-1/8,也就是说,随便玩一种策略,你都是在纳什均衡状态中的,所以,这个把戏你随便怎么玩,都是亏的。


参考链接:

blog.sina.com.cn/s/blog

zhihu.com/question/2282

blog.sina.com.cn/s/blog

jianshu.com/p/eef097d00

转载请注明:二十画生 » 纳什均衡

喜欢 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址