纳什均衡

约翰·纳什，生于1928年6月13日。著名经济学家、博弈论创始人、《美丽心灵》男主角原型。由于他与另外两位数学家（经济学家，约翰·C·海萨尼和莱因哈德·泽尔腾）在非合作博弈的均衡分析理论方面做出了开创性的贡献，对博弈论和经济学产生了重大影响，而获得1994年诺贝尔经济学奖。

这篇文章，我们首先通过一个经典囚徒困境的案例引出纳什均衡，然后简单的介绍纳什均衡的概念，最后分享几个有趣的例子。

1. 囚徒困境

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。

此时产生了两个嫌疑人之间的一场博弈：

表中的数字表示A，B各自的判刑结果。

该案例，显然最好的策略是双方都抵赖，结果是大家都只被判1年。但是由于两人处于隔离的情况，任何一方都不敢信任另一方，当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论，假设每个人都是“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他坦白，如果我抵赖，得坐10年监狱，如果我坦白最多才8年；假如他要是抵赖，如果我也抵赖，我就会被判一年，如果我坦白就可以被释放，而他会坐10年牢。综合以上几种情况考虑，不管他坦白与否，对我而言都是坦白了划算。两个人都会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。

A和B都坐八年牢就是囚徒困境的一个“纳什均衡”

纳什均衡首先对亚当·斯密的“看不见的手”的原理提出挑战：按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论：从利己目的出发，有时候结果会是损人不利己！

根本原因是亚当·斯密理论中的市场太过理想化。我们先看看纳什均衡到底是怎么回事。

2. 纳什均衡 vs. 帕累托最优

经济学定义：所谓纳什均衡，指的是参与人的这样一种策略组合，在该策略组合上，任何参与人单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

数学定义：在博弈 $G=\{S_1,…,S_n：u_1,…，u_n\}$ 中，如果由各个博弈方的各一个策略组成的某个策略组合 $(s_1^*,...,s_n^* )$ 中，任一博弈方 $i$ 的策略 $s_i^*$ ，都是对其余博弈方策略的组合 $(s_1^*,...,s_{i-1}^*,s_{i+1}^*,...,s_n^*)$ 的最佳对策，也即 $u_i(s_1^*,...,s_{i-1}^*,s_i^*,s_{i+1}^*,...,s_n^*) \ge u_i(s_1^*,...,s_{i-1}^*,s_{i,j},s_{i+1}^*,...,s_n^*)$ 对任意 $s_{i,j} \in S_i$ 都成立，则称 $(s_1^*,...,s_n^* )$ 为 $G$ 的一个纳什均衡。

注：博弈论中，一场博弈用 $G$ 表示， $S_i$ 表示博弈方 $i$ 的策略， $u_i$ 表示收益。

纳什证明了在每个参与者都只有有限种策略选择、并允许混合策略的前提下，纳什均衡一定存在。

纳什均衡不单单是一个博弈论中的概念。在经济学中，纳什均衡经常拿来和帕累托最优进行对比。

帕累托最优：指的是资源的一种分配状态，在该状态下，任何一方都无法改善自己的状况，除非损害其他人的利益。很明显，帕累托最优是某种意义上的资源最优分配方案。

怕累托改进：指的是在某一种状态下，某些人可以通过不损坏他人利益的情况下改善的自己效益。

之所以强调某种意义上，是因为在某些目标下，帕累托最优也不是最优资源分配方案。这里和古典功利主义做一个对比。古典功利主义理想的社会状态是，社会中所有人的福利总和最大化的状态。那么按照这种标准来说，在帕累托最优基础上，我们应该使得每个人对于资源的边际收益相等——凸函数最优化的冲要条件，即在任何两个人中进行资源转移，不会使得总收益增加。

举个栗子，假设一个社会里只有一个百万富翁和一个快饿死的乞丐，如果这个百万富翁拿出自己财富的万分之一，就可以使后者免于死亡。在帕累托最优中，富翁不应该进行施舍，因为这会损坏自己的利益；在古典功利主义中，富翁应该施舍，因为富翁只是付出了对自己来说很少的一点财富，就可以救活一个生命。

纳什均衡和帕累托最优两个概念经常放在一起比较，他们有什么区别呢？这里也啰嗦一下。简单来说，帕累托最优是从静态全局的角度来看待问题，是问题的最优解，是我们的心之渴望；而纳什均衡是从动态局部的角度来看待问题，是问题求解过程中的临时解。拿囚徒困境举例来说，双方均坦白就是纳什均衡，双方都抵赖帕累托最优。

福利经济学第一定理和第二定理对他们的争论有了准确的描述：当以下三个前提条件成立时，市场竞争产生的均衡一定是帕累托最优的。这三个条件包括：（1）一个完全竞争的市场，（2）不存在外部性，（3）不存在信息不对称。这就说明亚当斯密和凯恩斯的理论都存在问题。

这条定理的确从数学上证明了亚当斯密自由市场理论的正确性，但关键的是这三个前提条件在真实市场环境中全都不能成立。市场中大大小小的垄断随处皆是，公共权益和自然环境构成了随时可以侵占的外部利益，信息的封闭和不对称更是显而易见的缺陷。既然前提条件无法成立，玩家怎么可能通过自由博弈实现隐藏在后面的帕累托最优呢？实际出现的运行平稳局面都只是纳什均衡。至于如何打破纳什均衡从而获得帕累托最优的结果，导致了重大的方法论分歧。

自由贸易者主张：三个前提条件不成立，那就改善。通过法制、社群等手段来强化所要求的前提条件使其得到满足，继而仍是鼓励参与者自由贸易，通过合作博弈的方式打破非合作博弈下的纳什均衡；

而凯恩斯主义者则认为既然我们的目标是全局的帕累托最优，那我们的中央政权就直接按照构想的最优方案分配资源就可以了，干嘛还要通过每个参与者自由博弈的缓慢过程来逼近这个目标。

然而事实是两种方法均有不足：自由贸易者并不能真正彻底的改善前提条件不成立的问题，因为真实世界的人性确实很复杂，纳什均衡的阻力仍然存在；而凯恩斯主义者又过高的评价了公权力的能力。怎么可能指望中央政权真的是一个完全通晓经济真理，同时又毫无私心的上帝呢？他只不过是一个新进场的更可怕的博弈玩家。

3. 有趣的故事

3.1 枪手博弈

彼此痛恨的甲、乙、丙三个枪手准备决斗。甲枪法最好，十发八中；乙枪法次之，十发六中；丙枪法最差，十发四中。

问题1：如果三人同时开枪，并且每人只发一枪；第一轮枪战后，谁活下来的机会大一些？

一般人认为甲的枪法好，活下来的可能性大一些。但合乎推理的结论是，枪法最糟糕的丙活下来的几率最大。

我们来分析一下各个枪手的策略。

枪手甲一定要对枪手乙先开枪。因为乙对甲的威胁要比丙对甲的威胁更大，甲应该首先干掉乙，这是甲的最佳策略。同样的道理，枪手乙的最佳策略是第一枪瞄准甲。乙一旦将甲干掉，乙和丙进行对决，乙胜算的概率自然大很多。枪手丙的最佳策略也是先对甲开枪。乙的枪法毕竟比甲差一些，丙先把甲干掉再与乙进行对决，丙的存活概率还是要高一些。

但是在第一轮枪战后，丙有可能面对甲，也可能面对乙，甚至同时面对甲与乙，除非第一轮中甲乙皆死。尽管第一轮结束后，丙极有可能获胜（即甲乙双亡），但是第二轮开始，丙就一定处于劣势，因为不论甲或乙，他们的命中率都比丙的命中率为高。

这似乎说明，能力差的人在竞争中耍弄手腕能赢一时，但最终往往不能成事。

问题2：如果甲乙丙不是同时开枪，而是他们轮流开一枪，情况如何。

在这个例子中，我们发现丙的机会好于他的实力，丙不会被第一枪干掉，并且他可能极有机会在下一轮中先开枪。

先假定开枪的顺序是甲、乙、丙，甲一枪将乙干掉后（80％的几率），就轮到丙开枪，丙有40％的几率一枪将甲干掉。即使乙躲过甲的第一枪，轮到乙开枪，乙还是会瞄准枪法最好的甲开枪，即使乙这一枪干掉了甲，下一轮仍然是轮到丙开枪。无论是甲或者乙先开枪，乙都有在下一轮先开枪的优势。

问题3：如果是丙先开枪，情况又如何呢？

丙可以向甲先开枪，即使丙打不中甲，甲的最佳策略仍然是向乙开枪。但是，如果丙打中了甲，下一轮可就是乙开枪打丙了。因此，丙的最佳策略是胡乱开一枪，只要丙不打中甲或者乙，在下一轮射击中他就处于有利的形势。

我们通过这个例子，可以理解人们在博弈中能否获胜，不单纯取决于他们的实力，更重要的是取决于博弈方实力对比所形成的关系。

在上面的例子中，乙和丙实际上是一种联盟关系，先把甲干掉，他们的生存几率都上升了。我们现在来判断一下，乙和丙之中，谁更有可能背叛，谁更可能忠诚？

任何一个联盟的成员都会时刻权衡利弊，一旦背叛的好处大于忠诚的好处，联盟就会破裂。在乙和丙的联盟中，乙是最忠诚的。这不是因为乙本身具有更加忠诚的品质，而是利益关系使然。只要甲不死，乙的枪口就一定会瞄准甲。但丙就不是这样了，丙不瞄准甲而胡乱开一枪显然违背了联盟关系，丙这样做的结果，将使乙处于更危险的境地。

这种关系在历史上比比皆是。

三国时期，曹操势力最强，孙权次之，刘备最弱。为了抵抗强大的曹操，孙刘两家只有联合起来，取胜的几率才比较大。孙权就相当于前面例子中的乙，是孙刘联盟中最卖力的成员。在赤壁之战中，孙权出力最多，刘备实际上没出多少力。《三国演义》夸大了诸葛亮对赤壁之战的贡献，当时孙刘联军的统帅实际上是周瑜，周瑜在赤壁之战的功劳远大于诸葛亮。

南宋时期，蒙古军事实力最强，金国次之，南宋武力最弱。本来南宋应该和金国结盟，帮助金国抵御蒙古的入侵才是上策，或者至少保持中立。但是，当时的南宋采取了和蒙古结盟的政策。南宋当局先是糊涂地同意了拖雷借道宋地伐金。1231年，蒙古军队在宋朝的先遣队伍引导下，借道四川等地，北度汉水歼灭了金军有生力量。

1233年，南宋军队与蒙古军队合围蔡州，金朝最后一个皇帝在城破后死于乱兵，金至此灭亡。1279年，南宋正式亡于蒙古。

如果南宋当政者有战略眼光，捐弃前嫌，与世仇金结盟对抗最强大的敌人蒙古，宋和金都不至于那么快就先后灭亡了。

3.2 智猪博弈

猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

“智猪博弈”的结论似乎是，在一个双方公平、公正、合理和共享竞争环境中，有时占优势的一方最终得到的结果却有悖于他的初始理性。这种情况在现实中比比皆是。

比如，在某种新产品刚上市，其性能和功用还不为人所熟识的情况下，如果进行新产品生产的不仅是一家小企业，还有其他生产能力和销售能力更强的企业。那么，小企业完全没有必要作出头鸟，自己去投入大量广告做产品宣传，只要采用跟随战略即可。

在互联网行业，一个特别特别典型的案例是美团外卖和饿了么。饿了么初期投入大量资本培养用户习惯，探索商业模式，然而作为后来者的美团外卖却可以坐享这些成果，并利用充足的资本和饿了么进行持久的补贴战，市场份额一度成为外卖行业的老大。最终导致孤立无援的饿了么卖身阿里巴巴。

3.3 硬币正反面

你正在图书馆无聊的发呆，一位陌生美女主动过来和你搭讪，并要求和你一起玩个数学游戏。美女提议：“让我们各自亮出硬币的一面，或正或反。如果我们都是正面，那么我给你3元，如果我们都是反面，我给你1元，剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢？

废话，当然是应该！好吧，换个问法，你应该怎么玩这个游戏。

假设我们出正面的概率是x，反面的概率是1-x，美女出正面的概率是y，反面的概率是1-y。为了使利益最大化，应该在对手出正面或反面的时候我们的收益都相等（如果不相等，对方便会一直出正面或者反面，使得我们的利益最小），由此列出方程就是：

3x + (-2)(1-x)=(-2) * x + 1*( 1-x ) ，解方程得x=3/8；

同样，美女的收益，列方程-3y + 2( 1-y)= 2y+ (-1) * ( 1-y)，解得y也等于3/8。

于是，我们就可以算美女每次的期望收益是： (1-y)(2x-(1-x)) + y(-3x+2(1-x)) = 1/8元，也就是说，双方都采取最优策略的情况下，平均每次美女赢1/8元。

其实只要美女采取了(3/8，5/8)这个方案，不论你再采用什么方案，都是不能改变局面的。

如果全部出正面，每次的期望收益是 (3+3+3-2-2-2-2-2)/8=-1/8元；
如果全部出反面，每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。
比如你用完全随机（1/2，1/2）策略，收益是1/2*(3/8 * 3 + 5/8 * (-2)) + 1/2(3/8 * (-2) + 5/8 * 1) = -1/8；

实际上，不论你用什么策略，你的收益都是-1/8，也就是说，随便玩一种策略，你都是在纳什均衡状态中的，所以，这个把戏你随便怎么玩，都是亏的。

参考链接：

http://blog.sina.com.cn/s/blog_62514c640102xb1f.html

https://www.zhihu.com/question/22821519/answer/139468032

http://blog.sina.com.cn/s/blog_67d52a5e0102xb0s.html

https://www.jianshu.com/p/eef097d005f1

转载请注明：深圳彦祖 » 纳什均衡