博弈论

date

Sep 9, 2024

slug

gametheory

status

Published

tags

ECNU

summary

type

Post

策略式博弈：参与者、策略、收益

完美信息博弈：每一个参与人采取行动时准确地掌握了其他参与人的行动以及在其采取行动之前其他参与人的行动

完全信息博弈：每一参与者都拥有所有其他参与者的特征、策略集及得益函数等方面的准确信息

静态博弈：参与人同时行动

动态博弈：参与人不同时行动，需要根据之前的玩家行动作决策

根据对方在两种决策之间选择的概率以及自己的收益，确定自己的最优反应，做出函数（反应函数），然后通过图解，可以找到均衡点。

均衡是博弈论中一个重要的概念。它指的是在一个博弈中，每个参与者都采取了最优策略，并且没有任何一个参与者能够通过改变自己的策略来获得更多的收益。

纳什均衡，指的是参与人的这样一种策略组合，在该策略组合上，任何参与人单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

划线法

参与者位于支付矩阵的上部和左部，参与者的策略位于矩阵左部和上部，矩阵中的数值为组合策略对于参与者的利益值。

这里拿剪刀石头布博弈来说，支付矩阵如下图所示：

其中第一行第一列（0，0）表示参与者都选择锤头的策略对于两个参与者的利益都是0。

所以以第一行为例，对于第一行所有数据的第二个分量的最大值为1，在1下面画横线。对于两个分量都画了横线的数据就是双赢的情况，显然图中没有这样的数据，说明有些博弈通过划线法不能找出纳什均衡，这就是两个参与者划线方法。

划线原理：假设除了最后一个参与者其他参与者都选定某个策略，最后一个参与者选择对他来说利益最大的策略，相应最大值下面划横线。划线方法：按列比较各行第一个分量; 按行比较各列的第二的分量; 分别在最大值下划线; 其实就是找双方赢得都最大的偶对

Hotelling问题

完全信息动态博弈

完全信息动态博弈具有的两个特点分别是完全信息和动态。动态是指，在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。完全信息是指，每一个参与者的收益函数在所有参与者之间为公共知识，即每个人既知道自己的收益函数，也知道别人的收益函数，别人也知道你知道他的收益函数……以此类推。我们还需要在此了解一下完美信息这一概念，完美是指，在博弈进行的每一步当中，要选择行动的参与人都知道这一步之前博弈进行的整个过程；不完美是指，在博弈的某些阶段，要选择行动的参与人并不知道在这一步之前博弈进行的整个过程。

动态博弈的扩展型表示

扩展式博弈与战略式博弈一样，是对博弈问题的一种规范式描述。

扩展式博弈注重对参与人在博弈过程中所遇到决策问题的序列结构的详细分析。

两个重要问题：

每个参与人在什么时候行动；每个参与人行动时，他所面临决策问题的结构。扩展式博弈包括以下要素：

参与人集合

参与人的行动顺序，即每个参与人在何时行动

每个参与人行动时面临的决策问题，包括参与人行动时可供他选择的行动方案及他所了解的信息

参与人的支付函数，即博弈结束时每个参与人得到的博弈结果。

博弈树

空心圆表示博弈的开始；

称为博弈的结

内部结点称为决策结，外部结点称为终点结

结与结之间的连线称为博弈的枝。

不同信息集情形下的博弈树

知道参与人1的选择，不知道参与人2的选择

不知道参与人1的选择，知道参与人2的选择

不知道参与人1的选择，不知道参与人2的选择

知道参与人1的选择，知道参与人2的选择

扩展式博弈的假设

参与人完全理性；

参与人享有共同知识（博弈的结构：所有人都同时一起看到了博弈树；完全理性）；

参与人满足完美记忆（假设参与人不会忘记以前知道或者做过的事情）；

完全且完美信息动态博弈

逆向归纳法

从最后一个决策节点开始：首先考虑最后一个做决策的玩家，在给定其他玩家的决策之后，这个玩家会根据其可用的信息选择能使自己收益最大化的策略。

向前回推：在确定了最后一个阶段的最优决策后，向前一步分析之前的玩家的决策。在知道接下来的决策者会做出什么选择的情况下，前一阶段的玩家会选择对自己最有利的策略。

重复推导：不断重复这个过程，直到推导到第一个决策节点。每个玩家都会根据后续阶段可能的结果，选择在当前阶段对自己最有利的策略。

得出最优策略组合：通过逆向推导，可以得出博弈中所有玩家的最优策略组合，进而得到博弈的纳什均衡。

斯塔克伯格模型

支配企业（领导者）首先行动，然后从属企业（追随者）行动。

博弈可以具体如下表示：

企业1选择产量

企业2观测到，然后选择

企业的收益函数等于其利润函数：

其中是商品价格函数；c 是产品边际成本，为一常数，无固定成本。

我们应用逆向归纳法进行求解，首先计算企业2对企业1任意产量的最优反应：

由上式可得FOC：

由于企业1也可以解得企业2针对的最优反应，即他可以预测到企业2会选择，那么在博弈的第一阶段，企业1面临的决策问题可表示为：

由上式可得FOC：

这就是斯塔克尔贝里双头垄断模型的逆向归纳解。

序贯谈判（讨价还价）模型

我们首先分析一个三阶段的谈判模型。参与人1和参与人2就如何分配1元钱进行谈判。他们轮流提出方案：

参与人1提出一个分配建议，参与人2选择接受或者拒绝；

如果参与人2拒绝，就由参与人2提出一个分配建议，参与人1选择接受或者拒绝；

如果参与人1拒绝，就由参与人1再提出一个分配建议，参与人2选择接受或者拒绝；

以此类推……

每个参与人需要对下一阶段的收益进行贴现，贴现因子为δ。

下面是对三阶段谈判模型更详细的描述：

(1a) 在博弈开始时，参与人1建议他分走1美元的，留给参与人2的份额为

(1b) 参与人2可以选择接受这一条件，按照获得收益，也可以拒绝这一条件，博弈进行到下一阶段；

(2a) 在博弈的第二阶段，参与人2建议参与人1分走1美元的，留给自己的份额为

(2b) 参与人1可以选择接受这一条件，按照获得收益，也可以拒绝这一条件，博弈进入下一阶段；

(3) 在博弈的第三阶段，参与人1得到1美元的，留给参与人2的份额为

上述模型是将无限博弈模型简化为三阶段模型，第三阶段者的收益时外生给定的，可以看做是未来无期限博弈期望收益在第三阶段的贴现值。

我们利用逆向归纳法进行求解。

在第二阶段，若参与人1接受参与人2的建议，则他在第二阶段会获得收益，若参与人1拒绝参与人2的建议，则他在第三阶段会获得收益，这个收益在第二阶段的现值为，则当时，参与人1才会接受参与人2的建议。所以参与人2在第二阶段提出的建议是：

在第一阶段，参与人1知道，如果参与人2拒绝自己的建议，则参与人2会在第二阶段获得的收入，这个收入在第一阶段的现值为。所以，当且仅当时，参与人2会接受参与人1的建议，此时：

就是该三阶段博弈的逆向归纳解。

完全非完美信息两阶段博弈

银行挤提

两个投资者每人存入银行一笔存款D，银行已将这些存款投入一个长期项目。如果在该项目到期前银行被迫对投资者变现，共可收回，这里。不过，如果银行允许投资项目到期，则项目共可取得，这里。

有两个日期，投资者可以从银行提款：日期1在银行投资项目到期之前，日期2在到期之后。假设不存在贴现。如果两个投资者都在日期1提款，则每人可得到，博弈结束。如果只有一个投资者在日期1提款，他可得到，另一人得到，博弈结束。如果两人都不在日期1提款，则项目结束后投资者在日期2进行提款决策。如果两个投资者都在日期2提款，则每人得到R，博弈结束。最后，如果在日期2两个投资者都不提款，则银行向每个投资者返还R，博弈结束。

两个投资者在日期1和日期2的收益情况，可以用下面的两个标准式博弈表示。

日期1：

ㅤ	提款	不提
提款	r, r	D, 2r-D
不提	2r-D, D	下一阶段

日期2：

ㅤ	提款	不提
提款	R, R	2R-D, D
不提	D, 2R-D	R, R

我们从后往前分析。对于日期2的标准式博弈。由于，“提款”严格优于“不提款”，那么这一博弈有唯一的纳什均衡：两个投资者都将提款，最终收益为。由于不存在贴现，日期1的标准式博弈变为：

ㅤ	提款	不提
提款	r, r	D, 2r-D
不提	2r-D, D	R, R

由于，这一由两阶段博弈变形得到的单阶段博弈存在两个纯战略纳什均衡：

（1）两个投资者都提款，最终收益情况为

（2）两个投资者都不提款，最终收益为

前一种结果可以理解为对银行的一次挤提。如果投资者1相信投资者2将在日期1提款，则投资者1的最优反应也是去提款，即使他们等到日期2再去提款的话两人的福利都会提高。这里的银行挤提博弈在一个很重要的方面不同于上一章讨论的囚徒困境：虽然两个博弈都存在一个对整个社会是低效率的纳什均衡但是囚徒困境中这一均衡是唯一的，而在挤提模型中还同时存在另一个有效率的均衡。

完美贝叶斯均衡

概率判断：在各信息集处，选择的博弈方须具有对博弈到达该信息集中每个节点可能性的“判断”，即了解概率分布

序列理性：给定各博弈方的“判断”，他们的策略必须是“序列理性” 的。各博弈方遵守最大利益原则排除策略中不可信的威胁或诺言。（明明我有更好的策略获得更大的利益但是我不选，我让你获得的利益也减少）

均衡路径上的判断符合均衡策略：在均衡路径上的信息集处， “判断”由贝叶斯法则和各博弈方的均衡策略决定。

非均衡路径上判断符合均衡策略：不在均衡路径上的信息集处，“判断”也必须符合各方均衡策略。