Stackelberg博弈 python stackelberg博弈和nash博弈的区别_西门吹雪的技术博客_

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

豪爽的篮球 · Stackelberg博弈 python ...· 6 天前 ·

酒量小的牛排 · 北京长峰医院重大火灾事故调查报告公布 - ...· 4 月前 ·

大方的铁板烧 · 央视深扒搜狐张朝阳！揭秘中国互联网教父的“痛 ...· 1 年前 ·

一身肌肉的烤土司 · 【榜单】车企赚钱能力排行榜：有的一辆赚3.5 ...· 1 年前 ·

知识渊博的匕首 · 十一所中学或校区傻傻分不清，班长详解合肥四十 ...· 1 年前 ·

酒量小的领带 · 绝世古尊绝世古尊漫画绝世古尊漫画全集神漫画· 1 年前 ·

纳什平衡（Nash equilibrium）

简介

又称为非合作博弈均衡是博弈论的一个重要术语，以约翰·纳什命名。
在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。
如果任意一位参与者在其他所有参与者的策略确定的情况下，其选择的策略是最优的，那么这个组合就被定义为纳什平衡。
一个策略组合被称为纳什平衡，当每个博弈者的平衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。
纳什均衡：在这样一个局面之下，没有任何一方愿意单方面改变自己的策略，先变的一方可能得承受不好的结果
纳什均衡：任何一个选项不能只考虑理想情况，一个环境都应该达到纳什均衡，否则不可能长久，即使维持，代价也很高昂。

分类

纳什平衡可以分成两类：“纯战略纳什平衡”和“混合战略纳什平衡”。
要说明纯战略纳什平衡和混合战略纳什平衡，要先说明纯战略和混合战略。

纯战略

是提供给玩家要如何进行赛局的一个完整的定义。特别地是，纯战略决定在任何一种情况下要做的移动。战略集合是由玩家能够施行的纯战略所组成的集合。

混合战略

是对每个纯战略分配一个机率而形成的战略。混合战略允许玩家随机选择一个纯战略。混合战略博弈均衡中要用概率计算，因为每一种策略都是随机的，达到某一概率时，可以实现支付最优。因为机率是连续的，所以即使战略集合是有限的，也会有无限多个混合战略。
当然，严格来说，每个纯战略都是一个“退化”的混合战略，某一特定纯战略的机率为1，其他的则为0。

故 “纯战略纳什平衡” ，即参与之中的所有玩家都玩纯战略；而相应的“混合战略纳什平衡”，之中至少有一位玩家玩混合战略。

并不是每个赛局都会有纯战略纳什平衡，例如“钱币问题"就只有混合战略纳什平衡，而没有纯战略纳什平衡。不过，还是有许多赛局有纯战略纳什平衡（如协调赛局，囚徒困境和猎鹿赛局）。甚至，有些赛局能同时有纯战略和混合战略平衡。

囚徒困境

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。

关于案例，显然最好的策略是双方都抵赖，结果是大家都只被判1年。但是由于两人处于隔离的情况，首先应该是从心理学的角度来看，当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论，假设每个人都是“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他坦白，如果我抵赖，得坐10年监狱，如果我坦白最多才8年；假如他要是抵赖，如果我也抵赖，我就会被判一年，如果我坦白就可以被释放，而他会坐10年牢。综合以上几种情况考虑，不管他坦白与否，对我而言都是坦白了划算。两个人都会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。
纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战：按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。

硬币正反

你正在图书馆枯坐，一位陌生美女主动过来和你搭讪，并要求和你一起玩个数学游戏。美女提议：“让我们各自亮出硬币的一面，或正或反。如果我们都是正面，那么我给你3元，如果我们都是反面，我给你1元，剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢？这基本是废话，当然该。问题是，这个游戏公平吗？
每一种游戏依具其规则的不同会存在两种纳什平衡，一种是纯策略纳什平衡，也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面)，使得每人都赚得最多或亏得最少；或者是混合策略纳什平衡，而在这个游戏中，便应该采用混合策略纳什平衡。

斯塔克尔伯格模型

基本信息
在古诺模型和伯特兰德模型里，竞争厂商在市场上的地位是平等的，因而它们的行为是相似的。而且，它们的决策是同时的。当企业甲在作决策时，它并不知道企业乙的决策。

但事实上，在有些市场，竞争厂商之间的地位并不是对称的，市场地位的不对称引起了决策次序的不对称，通常，小企业先观察到大企业的行为，再决定自己的对策。德国经济学家斯塔克尔伯格建立的模型就反映了这种不对称的竞争。

在斯塔克尔伯格的寡头理论中，提出了将寡头厂商的角色定位为“领导者”与“追随者”的分析范式。一般来说，古诺模型中互为追随者的两个厂商势均力敌。而斯塔克尔伯格的寡头厂商模型中，一个是实力雄厚的领导者，一个是实力相对较弱的追随者。

该模型的基本假定条件是:在一个寡头行业中有两个厂商，他们生产相同的产品，其中，一个寡头厂商是处于支配地位的领导者，另一个是寡头厂商的追随者；另外，与古诺模型一样，每个厂商的决策变量都是产量，即每个厂商都会选择自己的最优产量来实现利润最大化。
假设条件

假设厂商1先决定它的产量，然后厂商2知道厂商1的产量后再作出它的产量决策。
因此，在确定自己产量时，厂商1必须考虑厂商2将如何作出反应。
其他假设与古诺模型相同.
领导性厂商所 决定的产量 需要以跟随厂商的反应函数为约束
领导性厂商的决策不再需要自己的反应函数

分析
斯塔克尔伯格模型是一个产量领导模型，厂商之间存在着行动次序的区别。产量的决定依据以下次序：领导性厂商决定一个产量，然后跟随着厂商可以观察到这个产量，然后根据领导性厂商的产量来决定他自己的产量。需要注意的是，领导性厂商在决定自己的产量的时候，充分了解跟随厂商会如何行动——这意味着领导性厂商可以知道跟随厂商的反应函数。

因此，领导性厂商自然会预期到自己决定的产量对跟随厂商的影响。正是在考虑到这种影响的情况下，领导性厂商所决定的产量将是一个以跟随厂商的反应函数为约束的利润最大化产量。在斯塔克尔伯格模型中，领导性厂商的决策不再需要自己的反应函数。

java 图片切片的原理

我的python学习19/9/5切片、迭代切片迭代切片、迭代掌握了Python的数据类型、语句和函数，基本上就可以更快捷、简便的写出很多有用的程序了比如构造一个1、3、5、7…99的列表，可以通过循环实现l = [] n = 1 while n <=99: l.append(n) n += 2但是在python中，代码越少越好，越简单越好，（在对付面试中更是有很大的加分，而不是一道