纳什本身的纳什均衡理论是什么？

www.gotaobaowang.com 2011-08-08 标签：博弈纳什均衡

纳什均衡点，应怎样理解
2011-01-12
纳什均衡点，应怎样理解
请举出具体的例子,谢谢
纳什均衡,又称为非合作赛局均衡,是博弈论的1 个重要概念,以约翰·纳什
命名。
要是某环境下无一参与者可以独自行动而增长收益,则此策略组合被称为纳
什均衡点
经典的例子就是阶下囚厄境,阶下囚厄境是1 个非零和博弈。大意是：1 个
案子的两个嫌疑人被分开审判,警官分别告诉两个囚犯,要是你招供,而对方不招
供,则你将被立即开释,而对方将被判刑十年；要是两人均招供,将均被判刑两年。
要是两人均不招供,将最有利,只被判刑半年。于是,两人同时陷入招供还是不招
供的两难所处的境地。但两人无法沟通,于是从各自的利益角度出发,都依据各
自的理性而选择了招供,这种环境就称为纳氏均衡点。这时,个体的理性利益选
择是与整体的理性利益选择不相符的。
学术争议和攻讦
熬头,纳什(Nash)的关于非合作(non-cooperative)博弈论的均衡不动点解
(equilibrium/fixpoint)学术证明长短机关性的(non-co tructive),就是说纳
什用角谷静夫不动点定理(Kakutani fixed point theorem)证了然均衡不动点
解是存在的,但却不能指出以什么机关算法如何去达到这个均衡不动点解。这种
非机关性的发明对现实生活里的博弈的作用是有限的,即使知道均衡不动点解存
在,在很多环境下却找不到,因此仍不能解决问题。[来历哀求]在数学意义上,纳
什并没有逾越角谷静夫不动点定理。
经过《美丽心灵》的Sylvia Nasar(书作者)和Ron Howard(影戏作者)如许
的主流媒体的介入,角谷静夫(Kakutani)在这些人的作品里被纯粹忽略。有人认
为,"纳什均衡"(Nash equilibrium)的更合适的名字应该叫作"角谷静夫-纳什博
弈论不动点"(Kakutani-Nash game-theoretic fixed point)或"角谷静夫-纳什
均衡"(Kakutani-Nash equilibrium),没有角谷静夫不动点定理,纳什的证明没
有多大学术意义。《美丽心灵》纯粹轻忽角谷静夫之关键孝敬的做法有待商榷。
第二,纳什的非合作(non-cooperative)博弈论模型仅只是突破了博弈论中
的1 个局限。1 个更大的局限是,博弈论面临的往往是由几十亿节点的庞大对象
构成的社会、经济等复杂举动,但冯·诺伊曼(Von Neuma )和纳什的研究是针
对两3 个节点的小型博弈论(有人称之为tiny-scale toy case)。[来历哀求]
这个假设的不完美处,可能比假设各人都是合作的(cooperative)更紧张。
因为在经济学里,1 个庞大社会里的人极不成能全数都是合作的,非合作的环境
通常在庞大对象的景象中更普遍,而在两 3 个节点的小型经济中倒反而影响较小。
既然改了合作前提为非合作前提,却仍然停留在两3 个节点的小型博弈论中,这
是1 个不成轻忽的缺陷。最近香港城市大学和北京清华大学的学者群邓小铁、
姚期智在基于复杂度理论的大规模博弈论上有所进展。
MIT 的一名计较机科学博士生的博士论文(PDF)--获得2008 年度美国计较
机协会学位论文奖--认为经济学家的推测是纰缪的,找到纳什均衡点是险些不成
能的事。今朝担任MIT 电机工程和计较机科学系助理教授的Co tantinos
Daskalakis 与UC 伯克利的Christos Papadimitriou、英国利物浦大学的Paul
Goldberg 合作,证明对某些博弈来说,穷全世界所有计较机之力,在全般宇宙生
存的年限的时间内也计较不出纳什均衡点。Daskalakis 相信,计较机找不到,人
类也不成能找到。纳什均衡属于NP 问题,Daskalakis 证明它属于NP 问题的1
个子集,不是通常认为的NP-纯粹问题,而是PPAD-纯粹问题。这项研究成果被一
些计较机科学家认为是十年来博弈论领域的最猛进展。
不过在统一篇论文里,Daskalakis 也指出,在参与者匿名的环境下,则仅需
多项式时间即可逼近纳什均衡。
现实的例子
上述例子可能显得不甚天然,但现实中,无论是人类社会或大天然都可以找
到类似阶下囚厄境的例子,将结果划成同样的支付矩阵。人文科学中的经济学、
政研学和社会学,以及天然科学的动物行动学、高级演化生物学等学科,都可以
用阶下囚厄境分析,模拟生物面临无尽头的阶下囚厄境博弈。阶下囚厄境可以广
为使用,说明这种博弈的重要性。以下为各界例子：
[编纂]政研学例子：武备竞赛
在政研学中,两国之间的武备竞赛可以用阶下囚厄境来描述。两国都可以声
称有两种选择：增长武备(叛逆)、或是达成削减兵器协议(合作)。两国都无法
肯定对方会笃守协议,因此两国终极会倾向增长武备。彷佛自相矛盾的是,虽则
增长武备会是两国的"理性"举动,但结果却显得"非理性"(例如会对经济造成都
有损坏等)。这可视作遏制理论的推论,就是以强大的军事气力来遏制对方的进
击,以达到和平。
[编纂]经济学例子：关税战
两个国家,在关税上可以有以两个选择：
提高关税,以掩护本身的商品。(叛逆)
与对方达成关税协定,降低关税以利各自商品畅通。(合作)
当一国因某些因素不笃守关税协定,而独自提高关税(叛逆)时,另一国也会
作出同样反应(亦叛逆),这就激发了关税战,两国的商品掉去了对方的市场,对本
身经济也造成损害(共同叛逆的结果)。然后二国又重新达成关税协定。(反复博
弈的结果是将发明共同合作利益最大。)
[编纂]商业例子：广告战
商业活动中亦会浮现各种阶下囚厄境例子。以广告竞争为例。
两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被主顾接受
则会篡夺对方的部分收入。但若二者同期间发出质量类是的广告,收入增长很少
但成本增长。但若不提高广告质量,生意又会被对方夺走。
此二公司可以有二选择：
互相达成协议,减少广告的开支。(合作)
增长广告开支,设法晋升广告的质量,压倒对方。(叛逆)
若二公司不信托对方,无法合作,叛逆成为支配性策略时,二公司将陷入广告
战,而广告成本的增长损害了二公司的收益,这就是陷入阶下囚厄境。在现实中,
要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入阶下囚厄境中。
[编纂]自桥式起重机赛例子
自桥式起重机赛事的角逐策略也是一种博弈,而其结果可用阶下囚厄境的研
究成果解释。例如每一年都举办的环法自桥式起重机赛中有以下环境：选手们
在到终点前的路程常以大队伍(英文：Peloton)方式前进,他们采取这策略是为
了令本身不至于太掉队,又出力适中。而最前方的选手在迎风时是最费力的,所
以选择在前方是最差的策略。通例会发生如许的环境,各人起先都不愿意向前
(共同叛逆),这使得全体速率很慢,而后通例会有二或多位选手骑到前面,然后一
段时间内互相互换最前方位置,以分担风的阻力(共同合作),使得全体的速率有
所晋升,而这时要是前方的其中一人试图一直保持前方位置(叛逆),其他选手以
及大队伍就会赶上(共同叛逆)。而通常的环境是,在最前面次数至多的选手(合
作)通例会到最后被掉队的选手赶上(叛逆),因为后面的选手骑在前面选手的冲
流之中,比较不费力。
[编纂]与阶下囚厄境相关的各事件
[编纂]异想
威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来
说明阶下囚厄境。在新西兰,报亭既无管理员也不上锁,买报纸的人自行放下钱
后拿走报纸。固然某些人可能取走报纸却不付钱(叛逆),但由于各人认识到要是
每1 个人都盗窃报纸(共同叛逆)会造成以后不方便的有害结果,这种景象很少发
生。这例子特别的地方是新西兰人并没有被不论什么其他因素影响而能离开阶
下囚厄境。并没有不论什么人特别去注意报亭,人们守规则是为了制止共同叛逆
带来的报应。这种制止阶下囚厄境的各人共同的推理或想法被称为"异想
(magical t 你好nking)"。[3]
[编纂]"认罪减刑"不成行
阶下囚厄境的结论是许多国家中认罪减刑(英文：plea bargain)被克制的
原因之一。阶下囚厄境带来的结论是：要是有二个罪犯,其中一人犯罪而另外一
人是无辜的,犯罪者会为了减刑率直一切甚至屈枉清白者(单独叛逆)。最糟糕的
环境是,要是他们二人都被判关进监狱,率直的犯罪者刑期少,对峙无罪的屈枉者
刑期反而更多。
[编纂]公用品悲剧
现实的博弈参与者不只一方,会有多方参与的阶下囚厄境。加勒特·詹姆
斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例："公用品悲剧是指凡
是属于至多数人的公共财产常常是最少受人赐顾帮衬的物质",例如渔业,公海中
的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,捕鱼为业的人会没
有节制的大捞特捞,结果海洋生态粉碎,捕鱼为业的人的生计也受影响(共同叛逆
的结果)。但是,多方阶下囚厄境的提法有待商榷,因为其总是可以被分化为一组
组经典的二方阶下囚厄境。就是说只有二方的阶下囚厄境,没有多方的。所谓多
方的阶下囚厄境只是由多个二方阶下囚厄境混杂在一起而形成的错觉。
[编纂]反复的阶下囚厄境
罗伯特·阿克塞尔罗德在其著作《合作的高级演化》中,探索了经典阶下囚
厄境情景的1 个扩展,并把它称作"反复的阶下囚厄境"(IPD)。在这个博弈中,参
与者必需反复地选择他们相互相关的策略,并且记住他们以前的匹敌。阿克塞尔
罗德邀请全世界的学术偕行来预设计较机策略,并在1 个反复阶下囚厄境竞赛中
互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的
匹敌、饶恕的能力等等。
阿克塞尔罗德发明,当这些匹敌被每1 个选择差别策略的参与者一再反复了
很永劫间之后,从利己的角度来判断,终极"贪心"策略趋势于减少,而比较"利他"
策略更多地被采用。他用这个博弈来说明,通过天然选择,一种利他举动的机制
可能从最初纯粹的自私机制高级演化而来。
最佳确定性策略被认为是"以眼还眼",这是阿纳托尔·拉波波特(Anatol
Rapoport)研发并运用到锦标赛中的要领。它是所有参赛程序中最简略的,只包
含了四行BASIC 语言,并且赢得了角逐。这个策略只不过是在反复博弈的开首合
作,然后,采取你的敌手前一回合的策略。更好些的策略是"饶恕地以眼还眼"。
当你的敌手叛逆,在下一回合中你无论如何要以小概率(约莫是1%-5%)时而合作
一下。这是思量到偶尔要从循环叛逆的受骗中回复复兴。当纰缪转达被引入博
弈时,"饶恕地以眼还眼"是最佳的。这意味着有时你的动作被纰缪地转达给你的
敌手：你合作但是你的敌手听说你叛逆了。
通过度析高分策略,阿克塞尔罗德指定了策略获得乐成的几个必要前提。
最重要的前提是策略必需"友善",这就是说,不要在敌手叛逆以前先叛逆。
险些所有的高分策略都是友善的。因此,纯粹自私的策略仅只出于自私的原因,
也永恒不会首先打击其敌手。
但是,阿克斯洛德主张,乐成的策略必需不是1 个认识不清乐观者。要始末
报复。1 个非报复策略的例子是始末合作。这是1 个非常糟糕的选择,因为"下
流"策略将残酷地剥削如许的傻子。
乐成策略的另1 个品质是必需要饶恕。虽则它们不报复,但是要是敌手不继
续叛逆,它们会一再撤退到合作。这遏制了报复和反报复的长期进行,最大化了
得分点数。
不嫉妒
最后1 个品质是不嫉妒,就是说不去争夺得到高于敌手的分数(对于"友善"
的策略来说这也是不成能的,也就是说"友善"的策略永恒无法得到高于敌手的分
数)。
因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为
了其自私的利益会趋势友善、饶恕和不嫉妒。阿克塞尔罗德关于反复阶下囚厄
境的研究的重要结论之一,是友善的家伙能先完交易成功易。
重新思量经典的阶下囚厄境一节中给定的武备竞赛模型：结论是,只是理性
策略增进了军事气力,彷佛两个国家都宁可花费其GDP 在***炮而不是奶油上。有
趣的是,企图说明匹敌国家实际上以这种方式(在"反复阶下囚厄境假设"下的差
别期间,军费支出在"高"和"低"之间反复)竞赛的尝试,却经常表白假设的武备竞
赛并没有如预想的那样子浮现。(例如希腊上下团结土耳其人的军费支出,看来
其实不像遵照"以眼还眼"的反复阶下囚厄境式的武备竞赛,却更可能是被其国内
的政策所差遣。)这可能是一次性博弈和反复性博弈中的理性举动差别的例子。
对一次性阶下囚厄境博弈来说,最佳(点数最大化的)策略是简略地叛逆；正
如前面解释的,无论敌手的行动可能是什么,这都是真正的。但是,在反复的阶下
囚厄境博弈中,最佳策略倚赖于可能的敌手的策略,和他们怎样对叛逆和合作作
出反应。例如,思量如许1 个人群,那里每1 个人每次都叛逆,除了1 个人是遵照
以眼还眼策略。这个人处于一种轻微的不利职位地方,因为熬头回合的损掉。在
如许的人群中,对这个人来说最佳策略就是每次都叛逆。在1 个有一定的百分点
的总叛逆者而剩下的则是以眼还眼者的人群中,对个人来说的最佳策略倚赖于这
个百分点和博弈的长度。
一般有两种要领得到最佳策略：
贝叶斯纳什均衡：要是匹敌策略的统计漫衍能被确定(例如,50%以眼还
眼,50%一直合作),就能从数学上获得最佳的相对策略[4]。
已有了人群的蒙特卡罗模拟,在这里低分个人消掉了,高分个人一再被出产
出来(一种获得最佳策略的天才算法)。决赛人群中的算法合成通常倚赖于预赛
人群中的算法合成。
尽管以眼还眼始末被认为是最可靠的基本策略,但是在反复阶下囚厄境的
20 周年数念赛中,来英国南安普敦大学的1 个小组(由尼古拉斯·詹宁斯
(Nicholas Je ings)[1]领导,包孕了拉蒂普·达什(Rajdeep Dash)、萨瓦帕
里·拉姆琼(Sarvapali Ramchurn)、亚历克斯·罗杰斯(Alex Rogers)斯和皮鲁
克里士南·维特林根(Perukrishnen Vytelingum))介绍了1 个新的策略,这个策
略证了然它比以眼还眼更乐成。这个策略倚赖于程序之间的合作,为单一程序中
获得了无上的点数。南安普敦大学提交处理了60 个程序参与竞赛,这些程序的
开首被预设成通过一组5 到10 个的动作去相互识别。一朝这些识别被作出,1
个程序将总是合作,其他程序则总是叛逆,保证叛逆者得到最大的点数。要是程
序识别出它在操作1 个非南安普敦参与者,这程序将持续地叛逆,企图去最小化
竞争程序的得分。结果[5],这个策略以获得前3 位结束了竞赛,也得到了大量接
近底部的位置。虽则这个策略显著地证了然比以眼还眼有效,但是这是因为利用
了下述事实：在这个特殊的竞赛中,多重通道是被容许的。在一方只能控制单一
参与者的竞赛中,以眼还眼确实是更好的策略。
要是反复阶下囚厄境将被精确地反复N 次,已知N 是1 个常数,那么会产生
另1 个有趣的事实。纳什均衡就是每次都叛逆。这很容易用归纳法证明。你也
能够在最后的回合叛逆,既然你的敌手将没有机会惩罚你。因此,你们都将在最
后的回合叛逆。这时,你可以在倒数第二回合中叛逆,既然最后一回无论你做什
么,你的敌手都将叛逆。依此类推。为了合作以保持哀求,这时未来必需对两个
参与者来说是不确定的。1 个解决方案是让博弈总次数N 酿成RAND 的。对未来
的预期必需是无法确定的长度。
另1 个单独的案例是"永不遏制"的阶下囚厄境。这个博弈被反复很屡次,而
且你的分数是1 个平均数(固然是用计较机计较的)。
阶下囚厄境博弈是某些人类合作和信托理论的基础。假设阶下囚厄境能够
模拟需要信托的两人之间的交流,群体的合作举动可以用有多个参与者的、反复
博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975 年,格
罗夫曼(Grofman)和普尔(Pool)估计,致力于这方面研究的学术文章,数量超过
2000 篇。
[编纂]学习生理学和博弈论
当博弈参与者能学会估计其他参与者叛逆的可能性,他们自身的举动就为他
们关于其他人的经验所影响。简略的统计预示,总体上,缺乏经验的参与者与其
他参与者的互动,或者是典型的好,或者是典型的坏。要是他们在这些经验的基
础上行动,(通过更多的叛逆或合作,否则)他们可能在未来的交易中受损。随着
经验逐渐富厚,他们获得了对叛逆可能性的更真正的印象,变得更乐成地参与博
弈。不成熟的参与者履历的早期交易对他们未来参与的影响,可能比这些交易对
成熟的参与者的影响要大得多。这个原理部分地解释了,为什么年轻人的成长经
验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为
凌辱弱小者。
群体中叛逆的可能性,可以被合作的经验所削弱[6],因为先前的博弈成立了
信托。因此自我捐躯举动可以,例如,加强团体的道德品质。要是团体很小,踊跃
举动更可能以互相肯定的方式--鼓励这个团体中的个人继续合作--得到反馈。
这与相是的厄境有关：鼓励那一些你将援助的人,从可能使他们处于危险的境地
的举动中得到满足。这种要领主要在互惠利他主义、群选择、血缘选择和道德
哲学的研究中涉及。
[编纂]相关的博弈
[编纂]封闭袋子交易
霍夫施塔特2 曾提出像阶下囚厄境的问题。他提出"密封袋子交易",他认为
以这简略博弈题,有助人们理解此论题。
"密封袋子交易"：甲、乙两人面临面互换密封的袋子,双方的共识是甲的袋
放钱、乙的放商品。双方各自可以诚实地把工具放到袋子,然后互换；又或者交
空袋子给对方,选择叛逆。
在这场博弈中,由于叛逆可获得巨大利益,必然有多人选择叛逆。这意味着
理性的商贾不会进行这种交易,因而"封闭袋子交易"将由于逆向选择而掉去市场。
[编纂]是敌是友?
"是敌是友?"是1 个竞赛表演节目,从2002 年到2005 年在美国竞赛表演广
播网(Game Show Network)放映。这是1 个用真人进行的阶下囚厄境博弈例子,
不过情景是人工制造的。这个竞赛表演有三对人参与竞争。当每对人被裁减时,
他们做 1 个阶下囚厄境博弈,决议如何分他们的奖品。要是他们都合作("朋友"),
他们的奖品就被平分。要是1 个合作而另1 个叛逆("敌人"),叛逆者得到所有的
奖品,合作者什么都得不到。要是双方互相叛逆,那么两人都一无所获。注意,这
个支付矩阵与前述规范的支付矩阵差别,因为发生"互相叛逆"的景象和"我合作
而敌手叛逆"的景象,其损掉是一样的。和规范阶下囚厄境的不变均衡比拟,"互
相叛逆"是不稳固的均衡(weak equilibrium)。要是你知道你的敌手将成为"敌
人",这时你的选择无法影响你的奖品。在某种意义上,"是敌是友"领有1 个介于
"阶下囚厄境"和"小鸡"之间的支付模型。
这个支付矩阵是：
要是参与者都合作,每人得到1。
要是都叛逆,每人得到0。
要是甲合作而乙叛逆,甲得到0 而乙得到2。
是敌是友对于想对阶下囚厄境作现实分析的人将是有用的。注意到,参与者
只能进行一次,所以所有涉及反复进行博弈的观点都不合用,"以眼还眼"策略也
无法发展出来。
在是敌是友中,每1 个参赛者被容许做1 个声明,使另一半友在双方秘密决
议合作或叛逆以前,确信他的友善。可能"打破制度"的要领将是1 个参与者告诉
他的敌手："我会选择做敌人。要是你相信我后来会和你分奖品的话,就选择做
朋友。否则,要是你选择做敌人,我们都会空手而回。"1 个更贪心的版本将是：
"我将选择做敌人。我会给你百分之X,剩下的百分之(100-X)归我。所以,要或
不要,要么我们都得到一些,要么我们都一无所获。"(在哀的美敦书博弈中时。)
此刻,奸计就是去尽量减少那个百分之 X,并保持另 1 个竞争者仍然选择做朋友。
基本上,这个参与者必需知道这个边界,在这里他的敌手从看到他一无所获中得
到的效用,要超过他从肯定能赢得的金钱中得到的效用,要是他顺利的话。
在竞赛中这个要领从未被试验过；可能是因为裁判们不会容许,而且即使容
许,不平等厌恶也会由于这个规则的使用而导致较低的指望收益。(哀的美敦书
博弈中尝试了这个要领,结果导致对高而不平等的出价的拒绝--在一些案例中,
至关于两周的关饷优先于两个参与者一无所获被断交。)
nash 打球很全面哈
就这么理解
经典的例子就是阶下囚厄境,阶下囚厄境是1 个非零和博弈。大意是：1 个
案子的两个嫌疑人被分开审判,警官分别告诉两个囚犯,要是你招供,而对方不招
供,则你将被判刑一年,而对方将被判刑十年；要是两人均招供,将均被判刑五年。
于是,两人同时陷入招供还是不招供的两难所处的境地。要是两人均不招供,将
最有利,只被判刑三年。但两人无法沟通,于是从各自的利益角度出发,都依据各
自的理性而选择了招供,这种环境就称为纳氏均衡点。这时,个体的理性利益选
择是与整体的理性利益选择不相符的。囚犯甲的博弈矩阵囚犯甲招供不招供囚
犯乙招供判刑五年甲判刑十年；乙判刑一年不招供甲判刑一年；乙判刑十年甲
判刑三年基于经济学中Rational agent 的前提假设,两个囚犯符合本身利益的
选择是率直招供,原本对双方都有利的策略不招供从而均被判刑三年就不会浮现。
事实上,如许两人都选择率直的策略以及因此被判五年的结局被是"纳什均衡
"(也叫非合作均衡),换句话说,在此环境下,无一参与者可以"独自行动"(即片面
改变决议)而增长收获。
…一开始我也以为是说史蒂夫纳什…进来才发明不是…
历史上的今天：
易方达深100ETF 的赎回问题2011-01-12 网上怎样才能买到易方达深证
100ETF 2011-01-12 在企业决策中的纳什均衡是什么?2011-01-12 纳什均衡的实
例。请高手解答2011-01-12
特别声明：
1：资料来源于互联网，版权归属原作者
2：资料内容属于网络意见，与本账号立场无关
3：如有侵权，请告知，立即删除。
纳什均衡点，应怎样理解
今日免费精品文档
原价:
10.00豆元
0豆元
转帖至
播放器加载中，请稍候...
相关文档
热度:
热度:
热度:
热度:
热度: t
热度:
热度:
热度:
热度:
热度: t
热度: t
热度:
热度:
该用户其他文档
等级:
分享于 2011-06-05 07:47
文档数据
热度:
浏览:
评论:
文档介绍
2011 01 12纳什均衡点，应怎样理解请举出具体的例子谢谢纳什均衡又称为非合作赛局均衡是博弈论的1个重要概念以约翰·纳什命名。要是某环境下无一参与者可以独自行动而增长收益则此策略组合被称为纳什均衡点经典的例子就是阶下囚厄境阶下囚厄境是1个非零和博弈。大意是：1个案子的两个嫌疑人被分开审判警官分别告诉两个囚犯要是你招供而对方不招供则你将被立即开释而对方将被判刑十年；要是两人均招供将均被判刑两年。要是两人均不招供将最有利. #46;
2011 01 12纳什均衡点，应怎样理解请举出具体的例子谢谢纳什均衡又称为非合作赛局均衡是博弈论的1个重要概念以约翰·纳什命名。要是某环境下无一参与者可以独自行动而增长收益则此策略组合被称为纳什均衡点经典的例子就是阶下囚厄境阶下囚厄境是1个非零和博弈。大意是：1个案子的两个嫌疑人被分开审判警官分别告诉两个囚犯要是你招供而对方不招供则你将被立即开释而对方将被判刑十年；要是两人均招供将均被判刑两年。要是两人均不招供将最有利只被判刑半年。于是两人同时陷入招供还是不招供的两难所处的境地。但两人无法
文档分类
待分类
文档格式
文档标签
如要提出意见建议，请到
发帖反馈。
校验码: 请输入左侧字符，
评论的时候，请遵纪守法并注意语言文明，多给文档分享人一些支持。
提交评论
Ctrl+Enter快速提交
评论加载中
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
(必填)
例: http://www.docin.com/p-44907311.html
推荐理由：
分享完整地址
文档地址：
你使用的浏览器不支持自动复制功能，请按鼠标ctrl+c或鼠标右键~
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
你使用的浏览器不支持自动复制功能，请按鼠标ctrl+c或鼠标右键~
html代码：
embed src='http://www.docin.com/DocinViewer-215252382-144.swf' width='650' height='490' type=a lication/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'/embed
支持嵌入HTML代码的网站使用
你使用的浏览器不支持自动复制功能，请按鼠标ctrl+c或鼠标右键~
分享给粉丝
分享标题：
推荐：纳什均衡点，应怎样理解
分享评论：
这篇文档很不错，推荐给你看看！
选择粉丝：
选择好友
您还没有选择要分享给谁哦~
您还没有豆单，请
豆单审核通过后，您会得到豆元奖励
纳什均衡点，应怎样理解
加入豆单
文档加入豆单成功
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
秒自动关闭窗口
2007-2011 DocIn.com Inc. All Rights Reserved 豆丁网
登录：
用户名/邮箱:
登录密码:
记住我
或者你也可以用以下网站登录
新用户？正在加载中...
纳什均衡
开放分类：
本词条由
创建，共有
编辑了
。最新协作者：
纳什均衡，Nash equilibrium ,又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。1994年诺贝尔经济学奖的获得者是美国普林斯顿大学的约翰·纳什。纳什获得诺贝尔经济学奖的原因是他在博奕沦领域的贡献，他提出了“纳什均衡”理论、关于博奕论，流传最广的是一个叫做“囚徒困境”的故事。目录
纳什均衡 - 简介
纳什均衡
纳什均衡，Nash equilibrium ,又称为非合作博弈均衡，是
的一个重要术语，以约翰·纳什命名。约翰·纳什1948年作为年轻数学博士生进入普林斯顿大学。其研究成果见于题为《非合作博弈》（1950）的博士论文。该博士论文导致了《n人博弈中的均衡点》（1950）和题为《非合作博弈》（1951）两篇论文的发表。纳什在上述论文中，介绍了合作博弈与非合作博弈的区别。他对非合作博弈的最重要
是阐明了包含任意人数局中人和任意偏好的一种通用解概念，也就是不限于两人零和博弈。该解概念后来被称为纳什均衡。
纳什均衡 - 定义
纳什均衡
假设有n个局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己
最大化。所有局中人策略构成一个
（Strategy Profile）。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。
纳什均衡 - 经典案例
纳什均衡囚徒困境：（1950年，数学家塔克任
客座教授，在给一些心理学家作讲演时，讲到两个囚犯的故事。）　　
假设有两个小偷A和B联合犯事、私入民宅被***抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。
表2.2给出了这个博弈的支付矩阵。
表2.2 囚徒困境博弈
　—————————————————————————— 　　┃　B　┃　B　┃ 　　————————┃————————┃————————┃ 　　┃　坦白　┃　抵赖　┃ 　　————————┃————————┃————————┃ 　　A　坦白　┃　–8, –8　┃　0, –10　┃ 　　————————┃————————┃————————┃ 　　A　抵赖　┃　–10, 0　┃　–1, –1　┃ 　　————————┃————————┃————————┃ 　
关于案例，显然最好的策略是双方都抵赖，结果是大家都只被判1年。但是由于两人处于隔离的情况，首先应该是从心理学的角度来看，当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论，假设每个人都是“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他坦白，我抵赖，得坐10年监狱，坦白最多才8年；他要是抵赖，我就可以被释放，而他会坐10年牢。综合以上几种情况考虑，不管他坦白与否，对我而言都是坦白了划算。两个人都会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。
基于经济学中Rational agent的前提假设，两个
符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被释放就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局，纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战：按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。
纳什均衡 - 理论介绍
纳什均衡
1994年诺贝尔经济学奖的获得者是美国普林斯顿大学的约翰·纳什。纳什获得
的原因是他在博奕沦领域的贡献，他提出了“纳什均衡”理论、关于博奕论，流传最广的是一个叫做“囚徒困境”的故事：
话说有一天，一个富翁在家中被杀，财物被盗；警方在此案的侦破过程中，抓到两个犯罪嫌疑人张三和李四，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称他们只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。***分别对张三和李四说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们1年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你3个月的监禁，但你的同伙要被判10年刑。如果你拒不坦白，而被同伙检举，那么你就将被判10年刑，他只判3个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判5年刑。”
张三和李四怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供，按照亚当·斯密的理论，每一个人都是一个“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他招了，我不招，得坐10年监狱，招了才5年，所以招了划算；假如我招了，他也招，得坐5年，他要是不招，我就只坐3个月，而他会坐10年牢，也是招了划算。综合以上几种情况考虑，不管他招不招，对我而言都是招了划算。两个人都会动这样的脑筋，最终，两个人都选择了招?结果都被判5年刑期。原本对双方都有利的策略(抵赖)和结局 (被判1年刑)就不会出现。这就是著名的“囚徒困境”。它实际上反映了一个很深刻的问题，这就是个人理性与集体理性的
实际上，如果两个都抵赖，各判刑1年，显然比都判5年好，但实际上做不到，因为它不满足个人理性要求。作为一个理性的人，张三和李四都会想，如果我抵赖而对方坦白的话，自己就可能判刑10年，理性的人是不会冒这种险的。但张三和李四都理性选择的结果，两人都被判了5年，最优的被判1年的结果并没有出现。也就是说，对每个人而言都是理性的选择，但对于整个集体来说却是不理性的。
这与传统经济学所言的结论相悖。传统经济学认为市场经济存在“看不见的手”，它调节的结果是每个人的理性选择最终会造成对整个集体的最大利益。实际上，就像
一样，这只看不见的手在参与选择的人数只有少数几个的时候会失去作用，因为这个时候，人们决策的过程会考虑其他参与者的想法，就像赌博和下棋的时候一样，这就和买家和卖家数量都巨大时的完全竞争不完全一样，需要新的一套思路进行研究。
在上面的例子中，我们注意到了一个并非最优的结果，就是两人都选择坦白的策略以及因此被判5年的结果，这个结果被称为“纳什均衡”，也叫非合作均衡。博奕论中最基本的概念就是“纳什均衡”，一谈到博奕论，人们说的最多的最著名的也是“纳什均衡”。纳什均衡指的是这样一种战略组合，这种战略组合由所有参与人的最优战略组成，也就是说，给定别人战略的情况下，没有任何单个参与人有积极性选择其他战略使自己获得更大利益，从而没有任何人有积极性打破这种均衡。
当然，“纳什均衡”虽然是由单个人的最优战略组成，但并不意味着是一个总体最优的结果。如上述，在个人理性与集体理性的冲突的情况下，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。
从这个意义上说，“纳什均衡”提出的悖论实际上动摇了
的基石。同时，它也提示我们：合作是有利的“利己策略”。实际上，如果上述两个囚徒能够串供进行合作，那么他们一定会选择都抵赖从而只因偷盗罪被判1年，当然，正是考虑到了这一点，所以***才对他们隔离审查从而获知了事实真相，对囚徒而言最有利的合作结果才没有出现。“纳什均衡”描述的就是一种非合作博奕均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博奕理论的重大发展，甚至可以说是一场革命。
今天，纳什均衡被广泛应用于各个领域的研究，尤其在进行制度分析寸，我们可应用它得出一个很重要结论：一种制度(体制)安排要发生效力，必须是一种纳什均衡。否则，这种制度安排便不能成立。(据
一书)
纳什均衡 - 事例现象分析
曾经有两个小偷A和B一起去偷东西，但是很不幸，由于技术不精，在作案过程中被***抓住了。警方将两个人分别关在两个房间里分别进行审问。这时A、B都有抵赖和招供两个选择，如果他们都选择抵赖的话，警方由于证据不足，最多只能关他们一年。但是如果都坦白的话，有了
他俩都会被判8年。如果其中一个坦白，另一个抵赖，坦白的一方由于破案有功，会被当场释放，而抵赖的一方则要被关十年。你知道最终他们会如何选择吗？下面我们看看A与B所获得的支付：
A╲B 坦白抵赖
坦白 -8，-8 0，-10
抵赖 -10，0 -1，-1
其中-1表示关一年，-8表示关八年。从图表里我们可以看到，整体来说，都抵赖是最优选择，总共只需要关两年。可会出现这个结果吗？ ***是不会。
首先看A，如果B选择坦白，那么他也应该选择坦白，这样只要关八年，否则都要关十年；如果B选择抵赖，那么他还是应该选择坦白，因为这样他就可以直接回家啦，不用关一年了。所以无论B怎么选择，A都应该选择坦白。这个分析对B来说也是一样，他也应该选择
，所以最终他们两个肯定都会被关八年，多么可怜啊，这就是人们著名的“囚徒困境”。
以上他们的策略组合“坦白，坦白”就是一个纳什均衡，因为在这个策略组合下，任何一个人都无法通过单方面的改变自己的策略而获得更好的结果，所以纳什均衡虽然不一定是最有效率的结果，但却是最稳定的结果。两个人都抵赖虽然是最有效率的，但是却不是一个稳定的策略组合。
乍一看还真会有一种自惭形秽的错觉，觉得自己功力不够深厚，分析不了纳什均衡现象背后潜藏的玄机，觉得有些鸡同鸭讲的意味。但细微一点就会发现，如此的现象，生活之中比比皆是——
很多时候，当我们站在一个人的角度或是
点来考虑问题的时候，往往都只考虑了对于自己单方面的最优方法，往往会忘记掉综合所有因素自己的最优做法（当然，这期间跟人的自私的秉性也有很大的关系）。这样一来，貌似我们个人能够获得比较大的价值，可是却恰恰忽略掉了倘若对方用同样的思维的话，就可能会出现自己最不想要的结果！
所以，最稳定的结果一般都是站在一个相同的层面上去思考和阐述问题，从而做出的在自己看来最“满意的结果”。
那么，当大多数人用同样的思维来审视事物的时候，就会出现一个比较明显的思维交接点，而现实是往往能够解开这个接点的不是多数人中的一员，而是表面上看与此件事态无关，其实却控制了整个局面的少数者——如此看来，河蚌相争，渔翁得利也有这方面的影子了。
当然，用概率的方式也可以分析“纳什均衡现象”。上述故事中每个人都有两种选择从而会有四种结果，除去两种比较极端的结果，就只剩下相对比较常规的结果，这两种结果所出现的概率往往会更大一些——因为，一般比较极端的结果都必须站在不同的立场考虑诸多因素，而不是单单的只考虑对于自己最有利的那一部分！这也就是为什么这个世界上永远会有一些人需要另一些人去劝导，并不是因为他们真的不聪明，而是因为本身狭义的
了他们本应该豁达的视角！
最后，我想，倘若大多数人都能够熟稔“纳什均衡现象”的本质点，这个社会上的价值冲突应该会减少很多，那么每一个人的价值又都会倍增很多了吧！
纳什均衡 - 纳什均衡的基础原理
鲜花插牛粪
为什么许多美女最后嫁给了让许多男性跌碎眼镜的男士，一些
最后也好不到哪里去。如果wo们用纳什均衡对这一现象进行剖析就有许多有趣的结论。纳什均衡的基础原理是，如果对方的策略是确定的，那么wo的策略是最优的，而对方的策略是不肯定的，那么wo的策略就很难是最优的。
男女理论
许多人知道有名的
，由于男性的节制性偏向，导致其一般会降一格选择异性伙伴，因此实际社会中的典范完配是A男配B女，B男配C女，C男配D女，而A女与D男轮空。这个时候发生了两个确定性，A女（鲜花）确定D牛粪男是没人要的，而D男确定A女是追不到的。这种确定导致了两个最有可能的均衡策略，A女如果在某种情形下选择了D男，则D男必定会接收，而D男去追A女则确定不会有成果，但反正D男也没人要则追A与不追A都一样不会有丧失，所以D男出于无聊或其ta动机仍非常有可能追A女。假定情景分析
在纳什本身的假定的情景下，如果有4优男看到4美女加一绝色美女，通常每男都假定其ta男的可能会去排队追此绝色美女，故追到绝美的不确定性最强（而如果真的产生了多男追绝美，绝美的确也可能表示出相当的不肯定性与优胜感），让ta很难有最优机遇，为防止“损了夫人又折兵”，每一男去追或者认真追的将会是普通
，而普通美女与绝色美女比拟知道本身的差距，在有确定的寻求者的时候，会明白本身的清楚的逢迎策略，因此一般美女对比绝美的不肯定策略会更具吸引力，成果导致绝美轮空或无人敢认真追她。
事实上，纳什假设中没有斟酌一类情况，就是增添有高度不确定性的花心男的存在。花心男符合A男甚至超A男，拥有众多的A、B、C女的寻求，花心男除了符合优良男士的诸多外在尺度外，由于某种原由无意与任何一女成为长期确定组合，因此在心理上更有超脱性，气质上更有潇洒性，而花心经验又使其比拟了解女性心理，并理解如何把持，花心男的典范模式是在其初始表示出确定的情圣模样，而使绝美或其ta美女上钩，认为ta是确定的幻想对象因而绝美或ta美女很容易表示出倾心，最终花心男又会以浪荡子形象显露本身的高度不确定与不靠谱（自扮坏人形象），使绝美与ta女能接收伤心而去的成果，这种始定终弃的模式是花心男屡使不爽的伎俩。而女性的情绪懦弱性往往使她们在被弃之后，选择那本无可选择或毫无盼望的D牛粪男，“鲜花插牛粪”正式成立。历史记载
历史研讨非常有趣地显示，这种现象在历史上导致了非常多的女鲜花插在牛粪男上,***激情网站，以及部分男鲜花插女牛粪上的案例，而且也在某些女性中形成了一种“与那潇洒的做情人，与那浑厚的做夫妻”的社会意理定规。最近正好看到一香港前亚姐因成为富商弃妇而***的报道。在
艳照门中，wo们可以一窥，一个花心男与一大票绝美的这种浪荡游戏，同时wo们又会看到这种游戏对男A中想老实从良或本为良民的如谢霆锋之类的损害，wo的勇敢预言，那些绝美中的一些人后来必然会把本身玩到插牛粪的水平。机遇也是宿命，红颜命薄固然可叹，其实往往也是因为有可气可恨可怜的情节在前的。不过，换个角度说，鲜花插了牛粪也未必就是最差策略，至少那牛粪是比拟靠得住的一面，阅历了沧桑的鲜花终也须要淀泊了，只要见到那花心男类的不再心痒难耐就行。比之插在花心地子处的鲜花，那插在牛粪上的也不能不说是荣幸的了。
***：鲜花一般是不追人的，所以
损失了自动、选择性获得相对较优的A男、B男或C男的机遇，而最有可能会追鲜花者来自A+男（花心男）和D男（牛粪男），这实际上极大限制了鲜花的选择范畴，并结构了其极易发生极端自wo误区（从开端开心肠接收花心男的寻求??“wo就要这样浪漫男人”到“男人没有一个好东西”从而伤心肠把自身插在牛粪上这样两极化的心理波动）。除非鲜花清楚了这个道理，自wo破解，才否则就很难走出这个近乎宿命的“鲜花插牛粪”困境，从而实现相对较优的组合。可怜很多的鲜花是没有知性素质的。
纳什均衡 - 基于纳什均衡的管理者薪酬分析
文章从期望理论对管理者激励薪酬的影响出发，指出了管理者薪酬计划的基础——绩效评价指标应满足的条件，并在此基础上，从纳什均衡理论的角度对管理者激励薪酬和不同资本结构管理者的薪酬作了分析。
制定合理的管理者薪酬是现代企业管理成功的关键。良好的薪酬管理计划可以协调企业目标与管理者目标，引导企业朝着战略目标健康发展，从而增加所有者财富，提升企业价值。期望理论为管理者薪酬的设计提供了管理学角度的理论指导，而纳什均衡理论又可以从经济学的角度探讨管理者激励薪酬的设计。一、管理者激励薪酬及其业绩指标的特点
企业是由多层级的委托关系构成的，委托人和
之间存在信息不对称，使得代理冲突、利益冲突在出资者与经营者之间不可避免。二者在企业管理目标上必定存在着差异甚至背离。在委托代理关系的链条中，为了防止利益冲突和非均衡性，保证代理人的行为符合委托人的意志，应在激励机制方面设计一套科学的方案，制定的企业管理者薪酬契约应使出资者利益、经营者利益之间实现最大程度的协调与统一。期望理论为设立合适的企业管理者薪酬契约提供了理论指导。
期望理论认为，人总是渴求满足一定的需要并设法达到一定的目标。这个目标在尚未实现时，表现为一种期望，这时目标反过来对个人的动机又是一种激发的力量，反映为：个人努力个人成绩（绩效）组织奖励（薪酬）个人需要。
在这个期望模式中的四个因素，体现了三个方面的关系：努力和绩效的关系；绩效与奖励的关系；奖励和个人需要的关系。可以看出，只有设立合理的激励薪酬机制，协调管理者和企业之间的利益冲突，才能促进企业健康发展，提升企业价值。
如何计划管理者薪酬，对于激励管理者，协调所有者利益与管理者利益，提升企业价值起着至关重要的作用。而合理的管理者薪酬计划应以合理的绩效评价指标为基础。合理的，能起到激励作用的绩效评价指标应具有如下特点：
第一，绩效评价指标应当明确、具体，设置的目标要考虑到被激励者的能力，让他经过努力是可以达到的。第二，要考虑组织目标和被激励者的需要，被激励者对自己看重的目标会努力奋斗；如果企业管理的目标落后于时代发展，与企业所处的政治、经济环境不相协调，就不能起到激励员工士气的作用。第三，对管理者绩效的评价指标必须符合整体性和长远性要求。另外，合理的绩效指标必须保障企业持续稳定发展，避免在经营过程中因企业的短期行为而影响企业的长远利益。第四，为管理者设立的
指标必须具有可行性。第五，制定的绩效评价指标应使代理成本尽可能低，使利益各方的目标达到协调一致。最后，企业不同的决策活动应有不同的细化的绩效评价指标，而不应该仅仅笼统地采用利润率，每股收益或EVA指标来衡量企业整体绩效。
二、管理者激励薪酬的纳什均衡分析
合理的管理者薪酬计划的作用之一就是协调委托人和代理人之间的利益，但是由于二者对待风险的态度不同，信息不对称，实施监督的困难性等原因，二者之间永远存在利益冲突，从而产生代理成本。代理成本包括：对管理者的激励薪酬成本；监督管理者行为的成本；管理者行为偏离所有者利益的成本。合理的管理者薪酬应该使代理成本尽可能低。从管理者的角度看，管理者因自己的行为给所有者带来的收益不会全部归管理者，因此，他有动机减少此类能带给所有者利益却不能满足它自身期望利益的决策行为，同时也有将公司资源转移给自身消费的动机。这形成了很大的代理成本。管理者薪酬与企业绩效评价指标应能将所有者利益与管理者利益统一起来，股东财富的变化应能影响管理者财富的变化。
管理者薪酬可以通过纳什均衡理论来设计。用G表示一个博弈，如该博弈有n个博弈方，每个博弈方可选择的策略的集合为Si（i从1-n），Sij表示博弈方i的第j个策略，P表示博弈方j的得益，是各博弈方策略的多元函数；在博弈G={Si，Pj}中，如果由每个博弈方的各一个策略组成的某个策略组合{S1，S2，…，Sn}中，任一博弈方i的策略Si都是对其余博弈方策略的组合的最佳策略对策，则（S1，S2，…，Sn）为G的一个“纳什均衡”。在企业的委托代理关系中，主要存在委托人（所有者）和代理人（管理者）两个博弈方。设代理人有机会成本O，其努力水平E分布在一个连续空间，其产出（业绩）P=P（E），努力的负效用C=C（E），此外，由于与代理人的努力水平无关的不确定性风险R的存在，委托人需向代理人支付固定薪水F（R），F（R）相对于E来说，是个常量。则：
委托人支付的薪酬W=W（P）=W[P（E）]+F（R）；
委托人的得益函数为P-W=P（E）-W[P（E）]-F（R）；
代理人的得益函数为W-C=W[P（E）]+F（R）-C（E）。
当代理人的得益不小于其接受委托的机会成本O时，才愿意接受委托，即，W[P（E）]+F（R）-C（E）≥O。在代理人接受委托的前提下，委托人则希望支付的薪酬越小越好，则约束条件为W+F（R）=C（E）+O。因此，委托人的得益函数为P（E）
-W[P（E）]-F（R）=P（E）-C（E）-O。因此，
必须找出一个努力水平E*，对于任意E，使他的得益函数P（E*）-C（E*）-O
≥P（E）-C（E）-O。
但代理人根据自身利益最大化来行为，其努力水平不一定选E*。要使代理人自觉选择努力水平E*，必须使W[P（E*）]+F（R）-C（E*）最大，即，对于任意E，W[P（E*）+F（R）-C（E*）≥W[P（E）]+F（R）-C（E）
如果委托人按这两个条件设计薪酬函数，就可以使代理人的行为符合自己的利益，即，对E求导，使：
P′(E)-C′（E）=0
W′[P(E)]-C′（E）=0
即，当W′[P(E)]=P′(E)时，达到了两个博弈方的均衡。可以看出，为了达到这个纳什均衡，关键是对企业绩效评价指标P(E)和以此为基础的管理者薪酬W[P(E)]的合理设计和分析。
上述分析中，为了简化明了，隐藏了
。需要注意的是，这里的管理者薪酬W[P(E)]尽管只是企业绩效P(E)的函数，但也包含着债权人利益这一隐函数对管理者薪酬的影响。
三、不同资本结构下管理者薪酬的均衡分析
（一）无负债企业管理者薪酬的纳什均衡
无负债公司由于没有债权人，此类企业的代理成本就是管理者与所有者之间的冲突成本，包括管理者的激励薪酬成本，监督管理者行为的成本和管理者行为偏离所有者利益的成本，不含债务代理成本。从这个角度讲，管理者的任何决策都只会影响所有者和管理者两方的利益，不会涉及第三方利益。即企业的绩效与所有者利益是统一的，管理者的薪酬应该和公司的绩效高度相关。在这种情况下，不存在债权人利益，管理者的薪酬W[P(E)]只需考虑企业绩效函数P(E)，就可以达到纳什均衡。
以投资决策为例，假设公司有两个投资机会，一个是无风险项目，一个是
，投资额相同。无风险项目的投资回报的现值为I。风险项目可能有高回报，也可能有低回报，获得高回报的现值为H，概率为p；获得低回报的现值为L，概率为1-p，则风险项目的投资回报现值为p×H+(1-P)×L。其中，H≥I≥L。
当p×H+(1-P)×L≥I时，投资风险项目会增加所有者财富，反之，应投资无风险项目。在没有约束的条件下，管理者选择何种投资只会考虑自身利益，而不会关注所有者财富是否会增加，这种情况下，管理者的薪酬应该按如下方法设计，才能使管理者的决策符合所有者利益。
管理者的薪酬应该包括固定薪酬F，如果投资风险项目获得高回报H，则管理者取得激励性薪酬а×H，а相当于绩效的提成比例；如果获得低回报L，则受到失职性惩罚β；如果投资无风险项目，管理者的薪酬为F+а×I，а同上。在这种情况下，如果满足条件：（1）p×(F+а×H)+(1-p)×(F-β)≥F+а×I，管理者就会选择风险项目。而这同时应满足条件：（2）p×H+(1-P)×L
≥I。对条件（1）进行整理，得p×H+(1-p)×L（-β/а）≥I，与条件（2）结合，得出结论，只要（-β/а）≤L，管理者就会选择符合所有者利益的决策。即，在设计管理者薪酬时，考虑投资失败时的惩罚性额度β，投资成功时的奖励提成比例а与投资失败的回报L时三者的关系满足（-β/а）≤L即可约束管理者行为，使其作出的决策符合所有者利益。
（二）有负债企业管理者薪酬的纳什均衡
当企业的资本结构中包括负债时，企业存在两方面的代理成本，其一是所有者与
之间的权益代理成本；其二是所有者与债权人之间的代理成本。前者的代理成本内容上文已分析，不再赘述。后者的代理成本主要是来自所有者和债权人之间的利益冲突，即，所有者财富的增加可能建立在债权人利益减少的基础上。权益性代理成本和债务性代理成本二者此消彼长。当企业制定的管理者薪酬合约将管理者利益与所有者财富相统一时，管理者会采取增加自身利益（同时增加所有者财富）的行为，从而减少权益代理成本。但这种行为有可能损害债权人利益。理智的债权人意识到这种情况发生的可能性，就会在债券市场上采取行动，迫使公司发行的债券价格下降，从而产生主要的债务代理成本。所以，当企业的资本结构中包括债务时，最优的管理者薪酬合约应该是在所有者财富、债权人利益和管理者利益之间达到一个“纳什均衡”。
仍以上述投资决策为例，由于增加了博弈方债权人，企业在制定管理者薪酬计划时，须考虑债务代理成本，表现为向债权人偿还的本金和支付的利息，设其现值为ф，当，①p×（H-ф）+(1-p)×（L-ф）≥I-ф时，应满足条件：②p×[F+а×（H-ф）]+(1-p)×(F-β)≥F+а×（I-ф）。
②得出结论，只要（-β/а）≤（L-ф），就会使管理者利益与所有者财富一致。而要使全部代理成本最低，还应满足权益代理成本与债权代理成本之和最低，所有者财富才能达到最大。
坐标的横轴表示管理者利益与所有者财富的一致程度，纵轴表示
代理成本，L1是权益代理成本，随着管理者利益与所有者财富一致程度的提高而降低，L2是债务代理成本，随着管理者利益与所有者财富一致程度的提高而上升。L1与L2的交点P是所有者财富最大的点。即，企业制定的管理者薪酬应该使债务代理成本与权益代理成本相等，这时二者之和最小，所有者财富最大。
盘点各博弈论
博弈论(Game Theory)，有时也称为对策论，或者赛局理论，是研究具有斗争或竞争性质现象的理论和方法，它是应用数学的一个分支，既是现代数学的一个新分支，也是运筹学的一个重要学科。生活法则这些法则经过世界上著名的心理学家们和社会学家们的研究及多次验证，被证明是正确的，是客观存在的。掌握这些法则，利用它们，你能改进你的生活的方方面面，从工作到家庭，从精神到物质。
为本词条添加
相关影像
注释与参考：
纳什均衡理论
第一财经日报，2005年06月02日
价值中国网
被引用：
纳什均衡已被如下媒体引用
媒体：
标题：
作者：
日期：
开放分类：
开放分类：
同义词：
同义词：
分享到：
互动百科的词条（含所附图片）系由网友上传，如果涉嫌侵权，请与***联系，我们将按照法律之相关规定及时进行处理。如需转载，请注明来源于www.hudong.com。
讨论区
此词条还可添加地图
相关词条
相关任务
任务名
发起人纳什均衡点，应怎样理解
悬赏分：30
解决时间：2010-8-3 11:51
提问者：
请举出具体的例子，谢谢
最佳***
纳什平衡，又称为非合作赛局平衡，是博弈论的一个重要概念，以约翰·纳什命名。
如果某情况下无一参与者可以独自行动而增加收益，则此策略组合被称为纳什均衡点
经典的例子就是囚徒困境，囚徒困境是一个非零和博弈。大意是：一个案子的两个嫌疑犯被分开审讯，警官分别告诉两个囚犯，如果你招供，而对方不招供，则你将被立即释放，而对方将被判刑十年；如果两人均招供，将均被判刑两年。如果两人均不招供，将最有利，只被判刑半年。于是，两人同时陷入招供还是不招供的两难处境。但两人无法沟通，于是从各自的利益角度出发，都依据各自的理性而选择了招供，这种情况就称为纳氏均衡点。这时，个体的理性利益选择是与整体的理性利益选择不一致的。
学术争议和批评
第一，纳什（Nash）的关于非合作（non-cooperative）博弈论的平衡不动点解（equilibrium/fixpoint）学术证明是非构造性的（non-co tructive），就是说纳什用角谷静夫不动点定理（Kakutani fixed point theorem）证明了平衡不动点解是存在的，但却不能指出以什么构造算法如何去达到这个平衡不动点解。这种非构造性的发现对现实生活里的博弈的作用是有限的，即使知道平衡不动点解存在，在很多情况下却找不到，因此仍不能解决问题。[来源请求]在数学意义上，纳什并没有超越角谷静夫不动点定理。
经过《美丽心灵》的Sylvia Nasar（书作者）和Ron Howard（电影作者）这样的主流媒体的介入，角谷静夫（Kakutani）在这些人的作品里被完全忽略。有人认为，“纳什平衡”（Nash equilibrium）的更合适的名字应该叫作“角谷静夫—纳什博弈论不动点”（Kakutani-Nash game-theoretic fixed point）或“角谷静夫—纳什平衡”（Kakutani-Nash equilibrium），没有角谷静夫不动点定理，纳什的证明没有多大学术意义。《美丽心灵》完全忽视角谷静夫之关键贡献的作法有待商榷。
第二，纳什的非合作（non-cooperative）博弈论模型仅仅是突破了博弈论中的一个局限。一个更大的局限是，博弈论面对的往往是由几十亿节点的庞大对象构成的社会、经济等复杂行为，但冯·诺伊曼（Von Neuma ）和纳什的研究是针对两三个节点的小规模博弈论（有人称之为tiny-scale toy case）。[来源请求]
这个假设的不完善处，可能比假设大家都是合作的（cooperative）更严重。因为在经济学里，一个庞大社会里的人极不可能全部都是合作的，非合作的情况通常在庞大对象的情形中更普遍，而在两三个节点的小规模经济中倒反而影响较小。既然改了合作前提为非合作前提，却仍然停留在两三个节点的小规模博弈论中，这是一个不可忽视的缺陷。最近香港城市大学和北京清华大学的学者群邓小铁、姚期智在基于复杂度理论的大规模博弈论上有所进展。
MIT的一位计算机科学博士生的博士论文(PDF
)——获得2008年度美国计算机协会学位论文奖——认为经济学家的推测是错误的，找到纳什均衡点是几乎不可能的事。目前担任MIT电机工程和计算机科学系助理教授的Co tantinos Daskalakis与 UC伯克利的Christos Papadimitriou、英国利物浦大学的Paul Goldberg合作，证明对某些博弈来说，穷全世界所有计算机之力，在整个宇宙寿命的时间内也计算不出纳什均衡点。Daskalakis相信，计算机找不到，人类也不可能找到。纳什均衡属于NP问题，Daskalakis证明它属于NP问题的一个子集，不是通常认为的NP-完全问题，而是PPAD-完全问题。这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展。
不过在同一篇论文里，Daskalakis也指出，在参与者匿名的情况下，则仅需多项式时间即可逼近纳什均衡。
现实的例子
上述例子可能显得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用，说明这种博弈的重要性。以下为各界例子：
[编辑] 政治学例子：军备竞赛
在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成都有损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。
[编辑] 经济学例子：关税战
两个国家，在关税上可以有以两个选择:
提高关税，以保护自己的商品。（背叛）
与对方达成关税协定，降低关税以利各自商品流通。（合作）
当一国因某些因素不遵守关税协定，而独自提高关税（背叛）时，另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）
[编辑] 商业例子：广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。
此二公司可以有二选择：
互相达成协议，减少广告的开支。（合作）
增加广告开支，设法提升广告的质量，压倒对方。（背叛）
若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。
[编辑] 自行车赛例子
自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自行车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。
[编辑] 与囚徒困境相关的各事件
[编辑] 异想
威廉·庞德斯通（William Poundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。在新西兰，报亭既无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭，人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想（magical thinking）”。[3]
[编辑] “认罪减刑”不可行
囚徒困境的结论是许多国家中认罪减刑（英文：plea bargain）被禁止的原因之一。囚徒困境带来的结论是：如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。
[编辑] 公用品悲剧
现实的博弈参与者不只一方，会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁（Garrett James Hardin）的公用品悲剧就是一例：“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。但是，多方囚徒困境的提法有待商榷，因为其总是可以被***为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境，没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。
[编辑] 重复的囚徒困境
罗伯特·阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。
阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。
最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特（Anatol Rapoport）开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%-5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。
通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。
最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。
但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。
成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。
最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。
因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。
重新考虑经典的囚徒困境一节中给定的军备竞赛模型：结论是，只是理性策略增进了军事力量，似乎两个国家都宁可花费其GDP在***炮而不是黄油上。有趣的是，企图说明对抗国家实际上以这种方式（在“重复囚徒困境假定”下的不同时期，军费支出在“高”和“低”之间反复）竞赛的尝试，却经常表明假定的军备竞赛并没有如预想的那样出现。（例如希腊人和土耳其人的军费支出，看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛，却更可能是被其国内的政策所驱使。）这可能是一次性博弈和重复性博弈中的理性行为不同的例子。
对一次性囚徒困境博弈来说，最佳（点数最大化的）策略是简单地背叛；正如前面解释的，无论对手的行动可能是什么，这都是真实的。但是，在重复的囚徒困境博弈中，最佳策略依赖于可能的对手的策略，和他们怎样对背叛和合作作出反应。例如，考虑这样一个人群，那里每个人每次都背叛，除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位，因为第一回合的损失。在这样的人群中，对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中，对个人来说的最佳策略依赖于这个百分比和博弈的长度。
一般有两种方法得到最佳策略：
贝叶斯纳什均衡：如果对抗策略的统计分布能被确定（例如，50％以牙还牙，50％一直合作），就能从数学上获得最佳的相对策略[4]。
已经有了人群的蒙特卡罗模拟，在这里低分个人消失了，高分个人一再被生产出来（一种获得最佳策略的天才算法）。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。
尽管以牙还牙始终被认为是最可靠的基本策略，但是在重复囚徒困境的20周年纪念赛中，来英国南安普敦大学的一个小组（由尼古拉斯·詹宁斯（Nicholas Je ings）[1]领导，包括了拉蒂普·达什（Rajdeep Dash）、萨瓦帕里·拉姆琼（Sarvapali Ramchurn）、亚历克斯·罗杰斯（Alex Rogers）斯和皮鲁克里士南·维特林根（Perukrishnen Vytelingum））介绍了一个新的策略，这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作，为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛，这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出，一个程序将总是合作，其他程序则总是背叛，保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者，这程序将持续地背叛，企图去最小化竞争程序的得分。结果[5]，这个策略以获得前3位结束了竞赛，也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效，但是这是因为利用了下述事实：在这个特殊的竞赛中，多重通道是被允许的。在一方只能控制单一参与者的竞赛中，以牙还牙确实是更好的策略。
如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛，既然你的对手将没有机会惩罚你。因此，你们都将在最后的回合背叛。这时，你可以在倒数第二回合中背叛，既然最后一回无论你做什么，你的对手都将背叛。依此类推。为了合作以保持请求，这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。
另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次，而且你的分数是一个平均数（当然是用计算机计算的）。
囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流，群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年，格罗夫曼（Grofman）和普尔（Pool）估计，致力于这方面研究的学术文章，数量超过2000篇。
[编辑] 学习心理学和博弈论
当博弈参与者能学会估计其他参与者背叛的可能性，他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示，总体上，缺乏经验的参与者与其他参与者的互动，或者是典型的好，或者是典型的坏。如果他们在这些经验的基础上行动，（通过更多的背叛或合作，否则）他们可能在未来的交易中受损。随着经验逐渐丰富，他们获得了对背叛可能性的更真实的印象，变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响，可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了，为什么年轻人的成长经验这么具有影响力，以及为什么他们特别容易被欺负，有时他们本身最后也成为欺凌弱小者。
群体中背叛的可能性，可以被合作的经验所削弱[6]，因为先前的博弈建立了信任。因此自我牺牲行为可以，例如，加强团体的道德品质。如果团体很小，积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关：鼓励那些你将援助的人，从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。
[编辑] 相关的博弈
[编辑] 封闭袋子交易
霍夫施塔特2曾提出像囚徒困境的问题。他提出“密封袋子交易”，他认为以这简单博弈题，有助人们理解此论题。
“密封袋子交易”:甲、乙两人面对面交换密封的袋子，双方的共识是甲的袋放钱、乙的放商品。双方各自可以诚实地把东西放到袋子，然后交换；又或者交空袋子给对方，选择背叛。
在这场博弈中，由于背叛可获得巨大利益，必然有多人选择背叛。这意味着理性的商人不会进行这种交易，因而“封闭袋子交易”将由于逆向选择而失去市场。
[编辑] 是敌是友?
“是敌是友？”是一个竞赛表演节目，从2002年到2005年在美国竞赛表演广播网（Game Show Network）放映。这是一个用真人进行的囚徒困境博弈例子，不过情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时，他们做一个囚徒困境博弈，决定如何分他们的奖品。如果他们都合作（“朋友”），他们的奖品就被平分。如果一个合作而另一个背叛（“敌人”），背叛者得到所有的奖品，合作者什么都得不到。如果双方互相背叛，那么两人都一无所获。注意，这个支付矩阵与前述标准的支付矩阵不同，因为发生“互相背叛”的情形和“我合作而对手背叛”的情形，其损失是一样的。和标准囚徒困境的稳定均衡相比，“互相背叛”是不稳固的均衡（weak equilibrium）。如果你知道你的对手将成为“敌人”，这时你的选择无法影响你的奖品。在某种意义上，“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型。
这个支付矩阵是：
如果参与者都合作，每人得到 +1。
如果都背叛，每人得到 0。
如果甲合作而乙背叛，甲得到0而乙得到 +2。
是敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到，参与者只能进行一次，所以所有涉及重复进行博弈的观点都不适用，“以牙还牙”策略也无法发展出来。
在是敌是友中，每个参赛者被允许做一个声明，使另一半友在双方秘密决定合作或背叛之前，确信他的友善。可能“打破制度”的方法将是一个参与者告诉他的对手：“我会选择做敌人。如果你相信我后来会和你分奖品的话，就选择做朋友。否则，如果你选择做敌人，我们都会空手而回。”一个更贪婪的版本将是：“我将选择做敌人。我会给你百分之X，剩下的百分之（100-X）归我。所以，要或不要，要么我们都得到一些，要么我们都一无所获。”（在最后通牒博弈中时。）现在，奸计就是去尽量减少那个百分之X，并保持另一个竞争者仍然选择做朋友。基本上，这个参与者必须知道这个界限，在这里他的对手从看到他一无所获中得到的效用，要超过他从肯定能赢得的金钱中得到的效用，如果他顺利的话。
在竞赛中这个方法从未被试验过；可能是因为裁判们不会允许，而且即使允许，不平等厌恶也会由于这个规则的使用而导致较低的期望收益。（最后通牒博弈中尝试了这个方法，结果导致对高而不平等的出价的拒绝——在一些案例中，相当于两周的工资优先于两个参与者一无所获被决绝。）
分享给你的朋友吧：
对我有帮助
回答时间：2010-7-31 20:58
回答者：
采纳率：17%
擅长领域：
参加的活动：
暂时没有参加的活动
提问者对于***的评价：
相关内容
2010-3-11
2010-10-26
2010-8-11
2010-2-20
2009-10-14
查看同主题问题：
其他回答
steve nash打球很全面哈
就这么理解
回答者：
2010-7-30 21:25
经典的例子就是囚徒困境，囚徒困境是一个非零和博弈。大意是：一个案子的两个嫌疑犯被分开审讯，警官分别告诉两个囚犯，如果你招供，而对方不招供，则你将被判刑一年，而对方将被判刑十年；如果两人均招供，将均被判刑五年。于是，两人同时陷入招供还是不招供的两难处境。如果两人均不招供，将最有利，只被判刑三年。但两人无法沟通，于是从各自的利益角度出发，都依据各自的理性而选择了招供，这种情况就称为纳氏均衡点。这时，个体的理性利益选择是与整体的理性利益选择不一致的。
囚犯甲的博弈矩阵
招供不招供
囚犯乙招供判刑五年甲判刑十年；乙判刑一年
不招供甲判刑一年；乙判刑十年甲判刑三年
基于经济学中Rational agent的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被判刑三年就不会出现。事实上，这样两人都选择坦白的策略以及因此被判五年的结局被是“纳什均衡”（也叫非合作均衡），换言之，在此情况下，无一参与者可以“独自行动”（即单方面改变决定）而增加收获。
回答者：
2010-7-30 23:59
……一开始我也以为是说史蒂夫纳什……进来才发现不是……
回答者：
2010-7-31 17:19
分享到：
用户名：
记住我的登录状态
2011 Baidu

纳什本身的纳什均衡理论是什么？

参考资料

随机推荐