5  不完全信息博弈

在不完美信息博弈中,参与人无法完全观察其他参与人的选择。所有的同时决策单次博弈都是不完美信息博弈。而与此相似却又不同的概念是不完全信息博弈,这里参与人无法完全了解博弈的设定或其他参与人的特征,例如其他参与人的备选行动集或者他们的收益函数。在对这种不完全信息建模时,通常假设参与人们存在不同的类型(type)。具体地说,一个参与人的类型是关于他的一组特征的组合(包括行动集和收益函数)。每个参与人了解自己的类型,同时每一个自己的类型都有一个关于其他参与人类型组合的的概率分布。通常这些概率分布都是同一个联合分布的边际分布。

在本章中我们只考虑参与人数量、类型数量、以及策略数量都是有限的博弈。这些博弈可能是静态的(static,即同时决策单次博弈)或动态的(dynamic,即序贯博弈)。不完全信息博弈中的纳什均衡也称为贝叶斯均衡(Bayesian equilibrium),而在 Section 4.4 中学过的完美贝叶斯均衡是贝叶斯均衡在扩展式博弈中的精炼。我们在本章中只讨论纯策略以及纯策略纳什均衡。

Section 5.1 中我们简要介绍参与人类型的概念,但是即使没有这一节也不妨碍对后续部分的理解。Section 5.2 讨论不完全信息静态博弈,而在 Section 5.3 中我们学习不完全信息动态博弈的一个重要应用问题,信号传递博弈(signaling game)。这两节中的讨论都是基于具体的例子,而更加正式的定义则要参考原书第十四章。

5.1 参与人的类型

考虑参与人的集合 N=\{1,\dots,n\}。每一个参与人 i\in N 都对应一个有限的类型集合 T_i。所有参与人的类型组合的集合可以记作

T = T_1 \times \dots \times T_n = \big\{ (t_1, \dots, t_n) \mid t_1 \in T_1, \dots, t_n \in T_n\big\}

在一个不完全信息博弈中,每个类型组合 t = (t_1, \dots, t_n) \in T 都对应着一个单独的博弈。要理解这句话的意思,我们还需假设每个参与人 i 了解他自身的类型 t_i,而针对每一个 t_i,都有一个关于其他参与人类型的概率分布与其对应,即

p(t_1, \dots, t_{i-1}, t_{i+1}, \dots, t_n \mid t_i),

t_1 \in T_1, \dots, t_{i-1} \in T_{i-1}, t_{i+1} \in T_{i+1}, \dots, t_n \in T_n

通常,上面这些概率分布都是一个关于 T 的联合分布 p 的边际分布,因此在本章中也这样假设。我们还假设每个参与人 i 都知道这个联合分布 p1。因此,如果参与人 i 的类型是 t_i,他可以计算边际分布 p(t_1, \dots, t_{i-1}, t_{i+1}, \dots, t_n \mid t_i),即

1 正式名称为共同先验分布(common prior distribution)。

p(t_1, \dots, t_{i-1}, t_{i+1}, \dots, t_n \mid t_i) = \frac{p(t_1, \dots, t_{i-1}, t_i, t_{i+1}, \dots, t_n)}{\sum p(t_1, \dots, t_{i-1}, t_i, t_{i+1}, \dots, t_n)}

分母中的 \sum 是针对所有其他参与人的类型组合进行加总,也就是参与人 i 的类型为 t_i 的概率,即 p(t_i)

因此,在不完全信息博弈中,参与人可以根据自身的类型进行决策,但无法针对他人的类型采取不同的行动。然而,因为他知道其他参与人类型的概率分布,他可以针对自身的行动计算期望收益。在下面的两节中我们将通过静态和动态博弈的例子看到具体的计算过程。

5.2 不完全信息静态博弈

让我们看几个例子。

5.2.1 一方具有不完全信息的性别战博弈

第一个例子是性别战博弈(Section 1.3.2)的一个变体。这里假设参与人 1(男人)不确定参与人 2(女人)是否想和自己约会。更准确的说,参与人 1 不知道自己面对的是下列两个博弈中的哪一个:

\begin{align*} & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} & & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} \\ y : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 2,1 & \ \ 0,0 \\ 0,0 & \ \ 1,2\end{pmatrix} & \quad \quad n : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 2,0 & \ \ 0,2 \\ 0,1 & \ \ 1,0 \end{pmatrix} \end{align*}

这里 F 为足球,B 为芭蕾。假设参与人 1 认为博弈 yn 发生的概率各为 1/2,而参与人 2 也知道此信息。如果用类型来描述的话,这代表参与人 1 只有一个类型,可以单纯的记为 “1”,而参与人 2 则有两个类型,即 yn。因此一共有两个类型组合,即 (1,y)(1,n),每个发生的概率是 1/2。 参与人 2 知道参与人 1 的类型,也知道自己的类型,也就是说她能够确定自己面对的是哪个博弈。参与人 1 则赋予参与人 2 的每个类型 1/2 的概率。

如何找到这个博弈的纳什均衡呢?我们可以用扩展式博弈的方式重新进行定义,此时的博弈树如 Figure 5.1 所示。

Figure 5.1: 不完全信息性别战博弈的博弈树

2 这里实际上是将不完全信息博弈用不完美信息扩展式博弈进行表达。对应原博弈的扩展式表达并不是唯一的,也可以在随机选择后首先令参与人 1 进行选择,然后是参与人 2。尝试画出这种博弈树。

此博弈以随机选择开始,首先决定将要进行哪个双矩阵博弈。换句话说,随机选择决定参与人 2 的类型。其结果会告知参与人 2 但不会告知参与人 1。因此参与人 2 有四个策略,而参与人 1 只有两个。2

从博弈树可以看出,任意纳什均衡都是子博弈完美的,因为不存在非平凡的子博弈(唯一的子博弈是原博弈自身)。同时,任意纳什均衡都是完美贝叶斯均衡,因为唯一的非平凡信息集会以 100\% 的概率到达,因此信念完全由参与人 2 的策略决定。具体地说,令参与人 1 的信念从左至右依次为 \alpha_1, \alpha_2, \alpha_3, \alpha_4,且满足\alpha_1+\alpha_2+\alpha_4+\alpha_4=1。例如 \alpha_3 是参与人 1 对参与人 2 在类型 n 时选择 F 所赋予的概率。如果参与人 2 的策略是在类型 y 时选择 F 而在类型 n 时选择 B,同时令 E 代表博弈进行到了参与人 1 的信息集,则有

\begin{align*} \alpha_1 &= \mathrm{Pr} \big[\,\text{参与人 2 的类型是 } y \text{ 并且选择 } F \mid E \,\big] \\ &= \frac{\mathrm{Pr} \big[\,\text{参与人 2 的类型是 } y \text{ 并且选择 } F \wedge E \,\big]}{\mathrm{Pr} [ E ]} \\ &= \frac{\mathrm{Pr} \big[\,\text{参与人 2 的类型是 } y \,\big] \mathrm{Pr} \big[\, \text{参与人 2 选择 } F \mid \text{参与人 2 的类型是 } y \,\big] \mathrm{Pr} \big[\, E \mid \text{参与人 2 的类型是 } y \text{ 并且选择 } F \,\big]}{\mathrm{Pr} [ E ]} \\ &= \frac{0.5 \times 1 \times 1}{1} = 0.5 \end{align*}

依此类推,可得 \alpha_2 = \alpha_3 = 0\alpha_4 = 0.5。当参与人 2 选择混合策略的时候也可以用以上方式计算,但我们只考虑纯策略。这里的关键是参与人 1 的唯一信息集是 100\% 可以到达的,因此所有的信念都可以通过条件概率计算,而不存在 Section 4.4 中出现的适用任意概率的情况。

此博弈的策略式表达为

\begin{align*} & \ \ \ \ \,\begin{matrix} FF & \ \ \ FB & \ \ \ \ \ BF & \ \ \ BB \end{matrix} \\ \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} \underline{2}, 0.5 & \underline{1}, \underline{1.5} & \underline{1}, 0 & 0, 1 \\ 0, 0.5 & 0.5, 0 & 0.5, \underline{1.5} & \underline{1}, 1 \end{pmatrix} \end{align*}

参与人 2 的策略中第一个字母代表类型 y 对应的行动,第二子字母则是类型 n 对应的行动。策略组合 (F, FF) 对应的期望收益组合是 0.5 \cdot (2,1) + 0.5 \cdot (2,0) = (2,0.5),而 (B,FB) 则对应 0.5 \cdot (0,0) + 0.5 \cdot (1,0) = (0.5,0),依此类推。用下划线标出的是最佳响应策略。

显然,此博弈唯一的纯策略纳什均衡是 (F,FB),在均衡中参与人 1 选择 F,类型 y 的参与人 2 选择 F,类型 n 的参与人 2 选择 B

适用于不完全信息静态博弈的另一个均衡概念是贝叶斯均衡(Bayesian equilibrium)3。在贝叶斯均衡中,每个参与人的每个类型都选择最佳响应。具体地说,就是每个参与人的每个类型都会选择令自身期望收益最大的行动,而该期望收益是针对所有其他参与人类型及其行动的组合计算的。在上面的博弈中,(F, FB) 也是贝叶斯均衡:针对参与人 1 的策略 F,类型 y 的参与人 2 的最佳响应是 F,而类型 n 的参与人 2 的最佳响应则是 B;而针对参与人 2 的策略 FB,参与人 1 的最佳响应策略是 F。事实上,如果每个参与人的每个类型实现的概率都为正,则策略式博弈的纳什均衡和贝叶斯均衡一致。

3 也称为贝叶斯纳什均衡(Bayesian Nash equilibrium)。

计算这个例子中的纯策略纳什均衡并不需要画出博弈树或者写出策略式表达。如果参与人 1 在均衡中选择策略 F,则类型 y 的参与人 2 应当选择 F,而类型 n 的参与人 2 则应该选择 B。此时参与人 1 的期望收益是 1,大于策略 B 的期望收益 0.5。因此可以确认 (F, FB) 是纳什均衡。相反,如果参与人 1 选择 B,则类型 y 的参与人 2 应当选择 B,而类型 n 的参与人 2 则应该选择 F。此时参与人 1 的期望收益是 0.5,小于 (F, BF) 的期望收益 1。因此可知当参与人 1 选择 B 时不存在纳什均衡。当然,以上分析在策略式表达的矩阵中是显而易见的,这里想说的是,对于这种简单的博弈,写出完整的策略式表达并不是必须的。

5.2.2 双方具有不完全信息的性别战博弈

下面的例子是性别战博弈的另一个变体,这里我们假设双方都不确定对方是否愿意和自己约会。我们可以将这种情形描述为四个双矩阵

\begin{align*} & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} & & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} \\ y_1 y_2 : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 2,1 & \ \ 0,0 \\ 0,0 & \ \ 1,2\end{pmatrix} & \quad \quad y_1 n_2 : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 2,0 & \ \ 0,2 \\ 0,1 & \ \ 1,0 \end{pmatrix} \\ \\ & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} & & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} \\ n_1 y_2 : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 0,1 & \ \ 2,0 \\ 1,0 & \ \ 0,2\end{pmatrix} & \quad \quad n_1 n_2 : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 0,0 & \ \ 2,2 \\ 1,1 & \ \ 0,0 \end{pmatrix} \\ \end{align*}

每个参与人 iy_in_i 两个类型,每个双矩阵对应一组类型组合。每种组合实现的概率如 Table 5.1 所示。

Table 5.1: 类型组合的实现概率
类型 t y_1 y_2 y_1 n_2 n_1 y_2 n_1 n_2
p(t) 2/6 2/6 1/6 1/6

有两种方法可以用来计算此博弈的纳什均衡。第一种是首先画出博弈树,然后写出对应的策略式表达并寻找纳什均衡。第二种是逐一验证每个策略组合是否符合纳什均衡的定义。下面我们尝试第二种方法。

现在每个参与人都拥有四个策略,即 FF, FB, BFBB(第一个行动对应类型 y_i,第二个行动对应 n_i)。而根据 Table 5.1,参与人可以很容易地计算对方类型的条件概率。例如

p(y_2 \mid y_1) = \frac{p(y_1y_2)}{p(y_1)} = \frac{p(y_1y_2)}{p(y_1y_2) + p(y_1n_2)} = \frac{2/6}{2/6 + 2/6} = \frac{1}{2} 同理可得其他条件概率

p(n_2 \mid y_1) = \frac{1}{2}, \quad p(y_2 \mid n_1) = \frac{1}{2}, \quad p(n_2 \mid n_1) = \frac{1}{2} \\ \phantom{\Bigg(} p(y_1 \mid y_2) = \frac{2}{3}, \quad p(n_1 \mid y_2) = \frac{1}{3}, \quad p(y_1 \mid n_2) = \frac{2}{3}, \quad p(n_1 \mid n_2) = \frac{1}{3}

接下来我们依次考察参与人 1 的四个纯策略。

  1. 假设参与人 1 选择策略 FF,即在类型 y_1n_1 时都选择行动 F。此时,类型 y_2 的参与人 2 选择 F 的期望收益是
    p(y_1 \mid y_2) \cdot 1 + p(n_1 \mid y_2) \cdot 1 = \frac{2}{3} \cdot 1 + \frac{1}{3} \cdot 1 = 1
    而选择 B 的期望收益是
    p(y_1 \mid y_2) \cdot 0 + p(n_1 \mid y_2) \cdot 0 = \frac{2}{3} \cdot 0 + \frac{1}{3} \cdot 0 = 0
    因此类型 y_2 的参与人 2 的最佳响应是 F。同理,类型 n_2 的参与人 2 选择 F 的期望收益是
    p(y_1 \mid n_2) \cdot 0 + p(n_1 \mid n_2) \cdot 0 = \frac{2}{3} \cdot 0 + \frac{1}{3} \cdot 0 = 0
    而选择 B 的期望收益是
    p(y_1 \mid n_2) \cdot 2 + p(n_1 \mid n_2) \cdot 2 = \frac{2}{3} \cdot 2 + \frac{1}{3} \cdot 2 = 2
    可知最佳响应是 B。因此参与人 2 对参与人 1 的策略 FF 的最佳响应是 FB。现在我们反过来假设参与人 2 选择策略 FB,即在类型 y_2 时选择 F 而在类型 n_2 时选择 B。此时,类型 y_1 的参与人 1 选择 F 的期望收益是
    p(y_2 \mid y_1) \cdot 2 + p(n_2 \mid y_1) \cdot 0 = \frac{1}{2} \cdot 2 + \frac{1}{2} \cdot 0 = 1
    而选择 B 的期望收益是
    p(y_2 \mid y_1) \cdot 0 + p(n_2 \mid y_1) \cdot 1 = \frac{1}{2} \cdot 0 + \frac{1}{2} \cdot 1 = \frac{1}{2}
    因此最佳响应是 F。类型 n_1 的参与人 1 选择 F 的期望收益是
    p(y_2 \mid n_1) \cdot 0 + p(n_2 \mid n_1) \cdot 2 = \frac{1}{2} \cdot 0 + \frac{1}{2} \cdot 2 = 1
    而选择 B 的期望收益是
    p(y_2 \mid n_1) \cdot 1 + p(n_2 \mid n_1) \cdot 0 = \frac{1}{2} \cdot 1 + \frac{1}{2} \cdot 0 = \frac{1}{2}
    因此最佳响应是 F。也就是说参与人 1 对参与人 2 的策略 FB 的最佳响应是 FF。策略 FFFB 互为最佳响应,因此 (FF, FB) 是纳什均衡。

  2. 假设参与人 1 选择策略 FB。此时类型 y_2 的参与人 2 选择 F 的期望收益是
    p(y_1 \mid y_2) \cdot 1 + p(n_1 \mid y_2) \cdot 0 = \frac{2}{3} \cdot 1 + \frac{1}{3} \cdot 0 = \frac{2}{3} 而选择 B 的期望收益是
    p(y_1 \mid y_2) \cdot 0 + p(n_1 \mid y_2) \cdot 2 = \frac{2}{3} \cdot 0 + \frac{1}{3} \cdot 2 = \frac{2}{3}
    因此 FB 都是最佳响应。类型 n_2 的参与人 2 选择 F 的期望收益是
    p(y_1 \mid n_2) \cdot 0 + p(n_1 \mid n_2) \cdot 1 = \frac{2}{3} \cdot 0 + \frac{1}{3} \cdot 1 = \frac{1}{3}
    选择 B 的期望收益是
    p(y_1 \mid n_2) \cdot 2 + p(n_1 \mid n_2) \cdot 0 = \frac{2}{3} \cdot 2 + \frac{1}{3} \cdot 0 = \frac{4}{3}
    因此 B 是最佳响应。参与人 2 对参与人 1 的策略 FB 的最佳响应策略有两个,即 FBBB。从第 (1) 条中已知参与人 1 对参与人 2 的策略 FB 的最佳响应是 FF 而不是 FB,因此 (FB, FB) 不是纳什均衡。而对于 BB,以同样的方式计算可知参与人 1 的最佳响应是 BF 而非 FB,因此 (FB, BB) 也不是纳什均衡。

  3. 假设参与人 1 选择策略 BF。此时参与人 2 的最佳反应为 BFBB。对于 BF,参与人 1 的最佳反应是 FF,而对 BB 的最佳反应是 BF。因此,只有 (BF, BB) 是纳什均衡。

  4. 最后,假设参与人 1 选择策略 BB。参与人 2 的最佳反应是 BF。对此,参与人 1 的最佳反应是 FF 而非 BB。因此这种情况下不存在纳什均衡。

综上所述,这个博弈有两个纯策略纳什均衡:

  • (FF, FB),即两个类型的参与人 1 都选择 F,类型 y_2 的参与人 2 选择 F,类型 n_2 的参与人 2 选择 B

  • (BF, BB),即类型 y_1 的参与人 1 选择 B,类型 n_1 的参与人 1 选择 F,而两个类型的参与人 2 都选择 B

这两个均衡也都是贝叶斯均衡。

5.3 信号传递博弈

在上一节中我们看到,不完全信息静态博弈可以表达为一个(不完美信息)扩展式博弈,其中首先以随机选择的方式确定参与人的类型。扩展式博弈也可以用来描述包含序贯行动的不完全信息博弈,一个重要的例子就是下面介绍的信号传递博弈。

信号传递博弈首先以随机选择的方式确定参与人 1 的类型。参与人 1 能观察随机选择的结果,但参与人 2 不能。随后参与人 1 进行选择,而参与人 2 在观察到参与人 1 的选择结果后再进行选择,之后博弈结束。之所以称为信号传递博弈(signaling game),是因为参与人 1 的行动有可能成为自身类型的信号,即参与人 2 或许可以以参与人 1 的行动为依据推测参与人 1 的类型。

5.3.1 一个例子

Figure 5.2 展示了一个信号传递博弈的例子。在这个博弈中,参与人 1 可以观察随机选择的结果,但是参与人 2 则不能。根据 Section 5.1 的定义,这里共有两个类型组合,分别为 (t,2)(\ddot{t},2),即参与人 1 有两个类型 t\ddot{t},而参与人 2 只有一个类型。这两个组合发生的概率都是 1/2。参与人 1 的每个类型都有两个行动 LR 可以选择,而参与人 2 只能观察参与人 1 的行动,但不知道他的类型。因此,我们不必区分不同类型的参与人 1 的同一行动(例如 L 在每个类型中都代表左侧的行动,R 代表右侧的行动)。

Figure 5.2: 信号传递博弈的博弈树

为了找到此博弈的(纯策略)纳什均衡,我们可以首先分析它的策略式表达。在策略式中每个参与人都有四个策略,参与人 1 的策略集为 (LL, LR, RL, RR),其中第一个和第二个字母分别对应类型 t 和类型 \ddot{t} 的行动。参与人 2 的策略集为 (uu', ud', du', dd'),其中第一个字母为观察到 L 时的行动,第二个字母为观察到 R 时的行动。各策略组合的期望收益可以正常计算,例如 (LR, ud') 的期望收益为 0.5 \cdot (2, 6) + 0.5 \cdot (2,4) = (2, 5)。依此类推,可得策略式博弈的期望收益矩阵

\begin{align*} & \ \ \ \ \,\begin{matrix} uu' & ud' & \ du' & dd' \end{matrix} \\ \begin{matrix} LL \\ LR \\ RL \\ RR \end{matrix} & \begin{pmatrix} 3, \underline{7} & \underline{3}, \underline{7} & 4, 1 & 4, 1 \\ 2, 3 & 2, \underline{5} & \underline{5}, 0 & \underline{5}, 2 \\ \underline{4}, \underline{5} & 2, 4 & 2, 2 & 0, 1 \\ 3, 1 & 1, \underline{2} & 3, 1 & 1, \underline{2} \end{pmatrix} \end{align*}

从期望收益矩阵可知此博弈有两个纯策略纳什均衡 (LL, ud')(RL, uu')。此博弈的唯一子博弈就是其本身,因此两个纳什均衡都是子博弈完美均衡。那么它们都是完美贝叶斯均衡吗?也就是说它们满足贝叶斯一致性和序贯理性 (Section 4.4) 吗?

首先考虑均衡 (RL, uu')。贝叶斯一致性要求

\begin{align*} \alpha &= \mathrm{Prob}[\text{参与人 1 的类型为 } t \mid \text{参与人 1 选择 } L] \\ &= \frac{\mathrm{Prob}[\text{参与人 1 的类型为 } t \text{ 且选择 } L]}{\mathrm{Prob}[\text{参与人 1 选择 } L]} \\ &= \frac{1/2 \cdot 0}{1/2} \\ &= 0 \end{align*}

以及

\begin{align*} \beta &= \mathrm{Prob}[\text{参与人 1 的类型为 } t \mid \text{参与人 1 选择 } R] \\ &= \frac{\mathrm{Prob}[\text{参与人 1 的类型为 } t \text{ 且选择 } R]}{\mathrm{Prob}[\text{参与人 1 选择 } R]} \\ &= \frac{1/2 \cdot 1}{1/2} \\ &= 1 \end{align*}

给出以上信念时,参与人 2 若选择 u 则会获得 8 收益(左侧信息集),选择 d 会获得 2 收益,因此 u 优于 d。若选择 u' 会获得 2 收益(右侧信息集),选择 d' 会获得 0 收益,因此 u' 优于 d'。参与人 2 的最佳响应是 uu'。因此,策略组合 (RL, uu') 是完美贝叶斯均衡,其对应的信念为 \alpha = 0, \beta = 1

值得强调的是,对于这种参与人 2 的每个信息集都会以正概率发生(换句话说,参与人 1 的每个行动都会被某个类型选择)的纳什均衡,完美贝叶斯均衡的条件不会带来真正有价值的附加约束:在给定纳什均衡的情况下,参与人 2 的信念完全由贝叶斯一致性决定,同时序贯理性在该信念下会自动被满足。

完美贝叶斯均衡 (RL, uu') 被称为分离(separating)均衡:它能将参与人 1 的两个类型分离,因为不同类型的参与人 1 选择不同的行动。在这个均衡中,参与人 1 的行动成为了他类型的信号,因此说这个均衡披露了信息(information revealing)。

接下来让我们看看均衡 (LL, ud')。此时由贝叶斯一致性可得

\begin{align*} \alpha &= \mathrm{Prob}[\text{参与人 1 的类型为 } t \mid \text{参与人 1 选择 } L] \\ &= \frac{\mathrm{Prob}[\text{参与人 1 的类型为 } t \text{ 且选择 } L]}{\mathrm{Prob}[\text{参与人 1 选择 } L]} \\ &= \frac{1/2 \cdot 1}{1} \\ &= 1/2 \end{align*}

也就是说,两个类型的参与人 1 都选择 L,因此参与人 2 在左侧信息集中的两个决策节点都以 1/2 的概率发生。给定 \alpha = 1/2 时,参与人 2 在左侧信息集中的最优选择是 u(实际上在此博弈中,u 对于任何 \alpha 都是最优的)。从策略式博弈中我们已经知道这一点了,因为 LL 的最佳响应是 uu'ud'

那么右侧信息集中的信念 (\beta, 1-\beta) 呢?由于参与人 1 只会选择 L,参与人 2 的右侧信息集是无法到达的(\mathrm{Prob}[\text{参与人 1 选择 } R] = 0),因此我们无法用贝叶斯公式计算 \beta。此时贝叶斯一致性失效,\beta 是无法确定的。下面的式子可以帮助我们更加清楚地看到这一点,

\begin{align*} \beta &= \mathrm{Prob}[\text{参与人 1 的类型为 } t \mid \text{参与人 1 选择 } R] \\ &= \frac{\mathrm{Prob}[\text{参与人 1 的类型为 } t \text{ 且选择 } R]}{\mathrm{Prob}[\text{参与人 1 选择 } R]} \end{align*}

如果参与人 1 选择 LL,则上式的分母为零。虽然贝叶斯一致性失效了,但序贯理性还是有效的:为了使 (LL, ud') 成为完美贝叶斯均衡,信念 (\beta, 1-\beta) 需要让参与人 2 的最优选择为 d'。也就是说 d' 给参与人 2 带来的期望收益应该不小于 u' 的期望收益,即 4(1-\beta) \geq 2\beta,即 \beta \leq 2/3。因此,(LL, ud')\alpha = 1/2, \beta \leq 2/3 时是完美贝叶斯均衡。

对于这种参与人 2 的每个信息集并不都会以正概率发生(换句话说,参与人 1 的某个行动永远不会被选择)的纳什均衡,完美贝叶斯均衡的条件会带来额外的约束。

均衡 (LL, ud') 称为混同(pooling)均衡:它将参与人 1 的类型混同在一起无法区分,因为所有类型都选择相同的行动 L。在这个均衡中,参与人 1 的行动没有披露其类型的信息。

5.3.2 计算扩展式博弈中的完美贝叶斯均衡

计算完美贝叶斯均衡时也可以不事先解出策略式博弈的纳什均衡。我们继续以 Figure 5.2 中的博弈为例进行分析。

首先假设存在一个参与人 1 选择 LL 的均衡。此时,根据贝叶斯一致性,可得 \alpha = 1/2。而根据序贯理性,参与人 2 在左侧信息集中的最优行动是 u。在右侧信息集中,当 \beta \geq 2/3 时参与人 2 的最优行动是 u',而当 \beta \leq 2/3 时则是 d'。如果参与人 2 在观察到 R 后选择 u',则类型 t 的参与人 1 不应当选择 L,因为选择 R 的收益 4 大于 L 的收益 2。因此,(LL, uu') 不是均衡。如果参与人 2 在观察到 R 后选择 d',则参与人 1 的每个类型都不会选择 R,因为选择 L 的收益都大于 R 的收益。综上所述,(LL, ud') 在信念为 \alpha = 1/2, \beta \leq 2/3 时是(混同)完美贝叶斯均衡。

然后假设参与人 1 在均衡中选择 LR。此时参与人 2 的信念为 \alpha = 1, \beta = 0,最佳响应策略为 ud'。但是在这种情况下,类型 \ddot{t} 的参与人 1 应当选择 L 而不是 R。因此 (LL, ud') 无法成为均衡。

第三种情况是假设参与人 1 在均衡中选择 RL。根据前一节的计算结果可知 \alpha = 1, \beta = 0,参与人 2 的最佳响应为 uu'。针对 uu',参与人 1 的最佳响应就是 RL,因此 (RL, uu')\alpha = 1, \beta = 0 时是(分离)完美贝叶斯均衡。

最后假设参与人 1 在均衡中选择 RR。此时 \beta = 1/2,参与人 2 对 R 的最佳响应是 d'。虽然无法确定 \alpha,但参与人 2 对 L 的最佳响应一定是 u,因为选择 u 的期望收益是 6 \alpha + 8(1-\alpha) = 8 - 2\alpha,大于选择 d 的期望收益 0\alpha + 2(1-\alpha) = 2 - 2\alpha。针对策略 ud',参与人 1 的最佳响应却是 LR 而非 RR,因此 RR 不是均衡策略。

当然以上分析也可以在策略式下完成,但这里要说的是,为了找到完美贝叶斯均衡,完整的策略式表达并不是必须的。

5.3.3 直观准则

在(本章里的)完美贝叶斯均衡中,如果参与人 2 的一个信息集的到达概率为零,则该信息集中的信念就是无法确定的——唯一的限制条件是序贯理性,即给定该信念时参与人 2 应该选择最优行动。问题是,这样的可以自由决定的信念是否合理?下面介绍的直观准则(intuitive criterion, IC)在这种情况下可以帮助我们确定更加合理的信念。

考虑信息传递博弈中的一个完美贝叶斯均衡,并假设其中一个信息集的到达概率为零。这意味着,参与人 1 的一个行动,暂且称之为 A,没有被任何一个类型选择。现在考虑参与人 1 的一个类型 t。假设该类型的参与人 1 在均衡中的收益为 x。然后假设类型 t 在选择 A 时可能获得的最大收益为 m。如果 m < x,则参与人 2 在 A 指向的信息集里赋予类型 t 的信念应该为零。这里的逻辑非常直观:类型 t 选择 A 时的收益绝不可能大于他在均衡中选择的行动所带来的收益,因为前者的最大值为 m,后者为 x,而 m < x。因此,参与人 2 不应相信类型 t 的参与人 1 在任何情况下会选择 A。我们需要针对参与人 1 的每一个类型进行这样的比较。如此下来,我们可能在 A 指向的信息集里给参与人 2 的信念增加一些限制。如果这个完美贝叶斯均衡所对应的信念满足这些约束条件,我们说该均衡满足直观准则4。但是,在某些情况下,直观准则有可能让参与人 1 的所有类型被赋予的信念都为零,这时候直观准则不适用,因为信念是概率,其和应该等于 1

4 原文为 survives the IC。

下面我们对 Figure 5.2 博弈中的完美贝叶斯均衡 (LL, ud'), \beta \leq 2/3 应用直观准则。类型 t 的参与人 1 在均衡中获得的期望收益是 2。如果类型 t 不选择 L 而选择 R,则他可获得的最大收益为 4(参与人 2 在观察到 R 后选择 u')。注意这里我们讨论的是可获得的最大收益,而非偏离均衡所产生的收益。如果类型 t 不选择 L 而选择了 R,依照均衡策略参与人 2 会选择 d',此时类型 t 的收益为 0。由于 4 \not< 2,类型 t 有理由改变选择,直观准则在这里无法提供任何有效的约束。而对于类型 \ddot{t},其在均衡中的收益为 4,但他在选择 R 时可获得的最大收益仅为 2。由于 2 < 4,直观准则认为参与人 2 没有理由相信类型 \ddot{t} 会选择 R。因此,1-\beta = 0,即 \beta = 1。但是这样的信念无法支持 (LL, ud') 成为完美贝叶斯均衡,因为序贯理性要求 \beta \leq 2/3。综上所属,这个完美贝叶斯均衡不满足直观准则。

5.3.4 另一个例子

下面我们考虑 Figure 5.3 中的博弈。我们尝试通过分析参与人 1 的每一个策略组合的方式寻找完美贝叶斯均衡。

Figure 5.3: 另一个信号传递博弈

假设参与人 1 选择 LL。由贝叶斯一致性可知 \alpha = 1/2,因此对于参与人 2 来说 ud 无差别。但是,如果参与人 2 选择了 u,类型 \ddot{t} 的参与人 1 将会选择 R 而非 L,并获得至少 1 的收益。因此,为了使均衡成立,参与人 2 在观察到 L 时应该选择 d。同理,为了防止参与人 1 改变选择,在观察到 R 时参与人 2 应当选 u' 而非 d',这在 \beta \geq 1/2 时是最优选择。类型 t 不会改为选 R,因此 (LL, du')\alpha = 1/2, \beta \geq 1/2 时是(混同)完美贝叶斯均衡。在这个均衡中,类型 t 获得的收益为 3,如果改选 R 则可获得的最大收益为 2。类型 \ddot{t} 获得的收益为 2,如果改选 R 则可获得的最大收益为 3。因此,直觉准则建议 \beta = 0,但是这样的信念无法支持 (LL, du') 成为完美贝叶斯均衡,所以这个均衡不满足直观准则。

如果参与人 1 选择 LR,则参与人 2 的最佳响应为 ud',但此时类型 t 会改选 R。因此不存在包含 LR 的完美贝叶斯均衡(以及纳什均衡)。

与此类似,如果参与人 1 选择 RL,则参与人 2 的最佳响应为 du',但此时类型 t 会改选 L。因此也不存在包含 RL 的完美贝叶斯均衡(以及纳什均衡)。

最后考虑参与人 1 选择 RR 的情况。此时 \beta = 1/2,对于参与人 2 来说 u'd' 无差别。如果他选择 u',则类型 t 的参与人 1 将改选 L 并且获得正收益。因此在均衡中参与人 2 应该选择 d'。同理,为了阻止类型 t 改选 L,参与人 2 在观察到 L 时应该选择 u,这在 \alpha \geq 1/2 时是最优选择。因此,(RR, ud')\alpha \geq 1/2, \beta = 1/2 时是(混同)完美贝叶斯均衡。类型 t 在均衡中的收益为 2,在改选 L 时可获得的最大收益为 3。类型 \ddot{t} 在均衡中的收益为 3,在改选 L 时可获得的最大收益为 2。因此,根据直觉准则,1-\alpha = 0,即 \alpha = 1,满足 \alpha \geq 1/2,所以这个均衡在 \alpha = 1 时满足直观准则。