博弈论笔记

博弈论相关概念

  • 纳什均衡
  • 囚徒困境
  • 重复博弈
  • 大众定理
  • 信息
  • 帕累托最优
  • 零和博弈
  • 非零和博弈
  • 微分包含式
  • 拍卖博弈

帕累托最优

帕累托最优 也称为帕累托效率(Pareto Efficiency)、帕雷托最佳配置,是博弈论中的重要概念,并且在经济学, 工程学和社会科学中有着广泛的应用。
  帕累托最优是指资源分配的一种理想状态,假定固有的一群人和可分配的资源,从一种分配状态到另一种状态的变化中,在没有使任何人境况变坏的前提下,使得至少一个人变得更好,这就是帕累托改进或帕累托最优化。帕累托最优的状态就是不可能再有更多的帕累托改进的余地;换句话说,帕累托改进是达到帕累托最优的路径和方法。帕累托最优是公平与效率的“理想王国”。
  帕累托最优回答的是效率问题。从社会福利角度出发,用效率来评价总体经济运行有其合理性,因为如果资源配置未达到帕累托最优,那么,总有一些人能改善境况而没有人会受损,也就是说,社会福利总量肯定能上升,那么通过一种恰当的分配或补偿措施,能使所有人的境况都有所改善。[1]

举例1:
假设现在有两个人,甲和乙,分10块蛋糕,并且两个人都喜欢吃蛋糕。10块蛋糕无论在两个人之间如何分配,都是帕累托最优,因为你想让某一个人拥有更大利益的唯一办法是从另一个人手里拿走蛋糕,导致的结果是那个被拿走蛋糕的人利益受损

纳什均衡

纳什均衡 是指博弈中这样的局面,又称为非合作博弈均衡,对于每个参与者来说,只要其他人不改变策略,这个参与者就无法改善自己的状况。纳什证明了在每个参与者都只有有限种策略选择并允许混合策略的前提下,纳什均衡定存在。以两家公司的价格大战为例,价格大战存在着两败俱伤的可能,在对方不改变价格的条件下既不能提价,否则会进一步丧失市场;也不能降价,因为会出现赔本甩卖。于是两家公司可以改变原先的利益格局,通过谈判寻求新的利益评估分摊方案。相互作用的经济主体假定其他主体所选择的战略为既定时,选择自己的最优战略的状态,也就是纳什均衡。

举例1:
1950年,由就职于兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论,后来由顾问艾伯特·塔克以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

  • 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
  • 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
  • 若二人都互相检举(互相“背叛”),则二人同样判监5年。

解说:

如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:

  • 若对方沉默、我背叛会让我获释,所以会选择背叛。
  • 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。

这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑5年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判监均比合作为高,总体利益较合作为低。这就是“困境”所在。例子有效地证明了:非零和博弈中,帕累托最优和纳什均衡是互相冲突的。