5  不完全信息博弈

在不完美信息博弈中,参与人无法完全观察其他参与人的选择。所有的同时决策单次博弈都是不完美信息博弈。而与此相似却又不同的概念是不完全信息博弈,这里参与人无法完全了解博弈的设定或其他参与人的特征,例如其他参与人的备选行动集或者他们的收益函数。在对这种不完全信息建模时,通常假设参与人们存在不同的类型(type)。具体地说,一个参与人的类型是关于他的一组特征的组合(包括行动集和收益函数)。每个参与人了解自己的类型,同时每一个自己的类型都有一个关于其他参与人类型组合的的概率分布。通常这些概率分布都是同一个联合分布的边际分布。

在本章中我们只考虑参与人数量、类型数量、以及策略数量都是有限的博弈。这些博弈可能是静态的(static,即同时决策单次博弈)或动态的(dynamic,即序贯博弈)。不完全信息博弈中的纳什均衡也称为贝叶斯均衡(Bayesian equilibrium),而在 Section 4.4 中学过的完美贝叶斯均衡是贝叶斯均衡在扩展式博弈中的精炼。我们在本章中只讨论纯策略以及纯策略纳什均衡。

Section 5.1 中我们简要介绍参与人类型的概念,但是即使没有这一节也不妨碍对后续部分的理解。Section 5.2 讨论不完全信息静态博弈,而在 Section 5.3 中我们学习不完全信息动态博弈的一个重要应用问题,信号传递博弈(signaling game)。这两节中的讨论都是基于具体的例子,而更加正式的定义则要参考原书第十四章。

5.1 参与人的类型

考虑参与人的集合 N=\{1,\dots,n\}。每一个参与人 i\in N 都对应一个有限的类型集合 T_i。所有参与人的类型组合的集合可以记作

T = T_1 \times \dots \times T_n = \big\{ (t_1, \dots, t_n) \mid t_1 \in T_1, \dots, t_n \in T_n\big\}

在一个不完全信息博弈中,每个类型组合 t = (t_1, \dots, t_n) \in T 都对应着一个单独的博弈。要理解这句话的意思,我们还需假设每个参与人 i 了解他自身的类型 t_i,而针对每一个 t_i,都有一个关于其他参与人类型的概率分布与其对应,即

p(t_1, \dots, t_{i-1}, t_{i+1}, \dots, t_n \mid t_i),

t_1 \in T_1, \dots, t_{i-1} \in T_{i-1}, t_{i+1} \in T_{i+1}, \dots, t_n \in T_n

通常,上面这些概率分布都是一个关于 T 的联合分布 p 的边际分布,因此在本章中也这样假设。我们还假设每个参与人 i 都知道这个联合分布 p1。因此,如果参与人 i 的类型是 t_i,他可以计算边际分布 p(t_1, \dots, t_{i-1}, t_{i+1}, \dots, t_n \mid t_i),即

1 正式名称为共同先验分布(common prior distribution)。

p(t_1, \dots, t_{i-1}, t_{i+1}, \dots, t_n \mid t_i) = \frac{p(t_1, \dots, t_{i-1}, t_i, t_{i+1}, \dots, t_n)}{\sum p(t_1, \dots, t_{i-1}, t_i, t_{i+1}, \dots, t_n)}

分母中的 \sum 是针对所有其他参与人的类型组合进行加总,也就是参与人 i 的类型为 t_i 的概率,即 p(t_i)

因此,在不完全信息博弈中,参与人可以根据自身的类型进行决策,但无法针对他人的类型采取不同的行动。然而,因为他知道其他参与人类型的概率分布,他可以针对自身的行动计算期望收益。在下面的两节中我们将通过静态和动态博弈的例子看到具体的计算过程。

5.2 不完全信息静态博弈

让我们看几个例子。

5.2.1 一方具有不完全信息的性别战博弈

第一个例子是性别战博弈(Section 1.3.2)的一个变体。这里假设参与人 1(男人)不确定参与人 2(女人)是否想和自己约会。更准确的说,参与人 1 不知道自己面对的是下列两个博弈中的哪一个:

\begin{align*} & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} & & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} \\ y : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 2,1 & \ \ 0,0 \\ 0,0 & \ \ 1,2\end{pmatrix} & \quad \quad n : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 2,0 & \ \ 0,2 \\ 0,1 & \ \ 1,0 \end{pmatrix} \end{align*}

这里 F 为足球,B 为芭蕾。假设参与人 1 认为博弈 yn 发生的概率各为 1/2,而参与人 2 也知道此信息。如果用类型来描述的话,这代表参与人 1 只有一个类型,可以单纯的记为 “1”,而参与人 2 则有两个类型,即 yn。因此一共有两个类型组合,即 (1,y)(1,n),每个发生的概率是 1/2。 参与人 2 知道参与人 1 的类型,也知道自己的类型,也就是说她能够确定自己面对的是哪个博弈。参与人 1 则赋予参与人 2 的每个类型 1/2 的概率。

如何找到这个博弈的纳什均衡呢?我们可以用扩展式博弈的方式重新进行定义,此时的博弈树如 Figure 5.1 所示。

Figure 5.1: 不完全信息性别战博弈的博弈树

2 这里实际上是将不完全信息博弈用不完美信息扩展式博弈进行表达。对应原博弈的扩展式表达并不是唯一的,也可以在随机选择后首先令参与人 1 进行选择,然后是参与人 2。尝试画出这种博弈树。

此博弈以随机选择开始,首先决定将要进行哪个双矩阵博弈。换句话说,随机选择决定参与人 2 的类型。其结果会告知参与人 2 但不会告知参与人 1。因此参与人 2 有四个策略,而参与人 1 只有两个。2

从博弈树可以看出,任意纳什均衡都是子博弈完美的,因为不存在非平凡的子博弈(唯一的子博弈是原博弈自身)。同时,任意纳什均衡都是完美贝叶斯均衡,因为唯一的非平凡信息集会以 100\% 的概率到达,因此信念完全由参与人 2 的策略决定。具体地说,令参与人 1 的信念从左至右依次为 \alpha_1, \alpha_2, \alpha_3, \alpha_4,且满足\alpha_1+\alpha_2+\alpha_4+\alpha_4=1。例如 \alpha_3 是参与人 1 对参与人 2 在类型 n 时选择 F 所赋予的概率。如果参与人 2 的策略是在类型 y 时选择 F 而在类型 n 时选择 B,同时令 E 代表博弈进行到了参与人 1 的信息集,则有

\begin{align*} \alpha_1 &= \mathrm{Pr} \big[\,\text{参与人 2 的类型是 } y \text{ 并且选择 } F \mid E \,\big] \\ &= \frac{\mathrm{Pr} \big[\,\text{参与人 2 的类型是 } y \text{ 并且选择 } F \wedge E \,\big]}{\mathrm{Pr} [ E ]} \\ &= \frac{\mathrm{Pr} \big[\,\text{参与人 2 的类型是 } y \,\big] \mathrm{Pr} \big[\, \text{参与人 2 选择 } F \mid \text{参与人 2 的类型是 } y \,\big] \mathrm{Pr} \big[\, E \mid \text{参与人 2 的类型是 } y \text{ 并且选择 } F \,\big]}{\mathrm{Pr} [ E ]} \\ &= \frac{0.5 \times 1 \times 1}{1} = 0.5 \end{align*}

依此类推,可得 \alpha_2 = \alpha_3 = 0\alpha_4 = 0.5。当参与人 2 选择混合策略的时候也可以用以上方式计算,但我们只考虑纯策略。这里的关键是参与人 1 的唯一信息集是 100\% 可以到达的,因此所有的信念都可以通过条件概率计算,而不存在 Section 4.4 中出现的适用任意概率的情况。

此博弈的策略式表达为

\begin{align*} & \ \ \ \ \,\begin{matrix} FF & \ \ \ FB & \ \ \ \ \ BF & \ \ \ BB \end{matrix} \\ \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} \underline{2}, 0.5 & \underline{1}, \underline{1.5} & \underline{1}, 0 & 0, 1 \\ 0, 0.5 & 0.5, 0 & 0.5, \underline{1.5} & \underline{1}, 1 \end{pmatrix} \end{align*}

参与人 2 的策略中第一个字母代表类型 y 对应的行动,第二子字母则是类型 n 对应的行动。策略组合 (F, FF) 对应的期望收益组合是 0.5 \cdot (2,1) + 0.5 \cdot (2,0) = (2,0.5),而 (B,FB) 则对应 0.5 \cdot (0,0) + 0.5 \cdot (1,0) = (0.5,0),依此类推。最佳响应策略以下划线标出。

显然,此博弈唯一的纯策略纳什均衡是 (F,FB),在均衡中参与人 1 选择 F,类型 y 的参与人 2 选择 F,类型 n 的参与人 2 选择 B

适用于不完全信息静态博弈的另一个均衡概念是贝叶斯均衡(Bayesian equilibrium)3。在贝叶斯均衡中,每个参与人的每个类型都选择最佳响应。具体地说,就是每个参与人的每个类型都会选择令自身期望收益最大的行动,而该期望收益是针对所有其他参与人类型及其行动的组合计算的。在上面的博弈中,(F, FB) 也是贝叶斯均衡:针对参与人 1 的策略 F,类型 y 的参与人 2 的最佳响应是 F,而类型 n 的参与人 2 的最佳响应则是 B;而针对参与人 2 的策略 FB,参与人 1 的最佳响应策略是 F。事实上,如果每个参与人的每个类型实现的概率都为正,则策略式博弈的纳什均衡和贝叶斯均衡一致。

3 也称为贝叶斯纳什均衡(Bayesian Nash equilibrium)。

计算这个例子中的纯策略纳什均衡并不需要画出博弈树或者写出策略式表达。如果参与人 1 在均衡中选择策略 F,则类型 y 的参与人 2 应当选择 F,而类型 n 的参与人 2 则应该选择 B。此时参与人 1 的期望收益是 1,大于策略 B 的期望收益 0.5。因此可以确认 (F, FB) 是纳什均衡。相反,如果参与人 1 选择 B,则类型 y 的参与人 2 应当选择 B,而类型 n 的参与人 2 则应该选择 F。此时参与人 1 的期望收益是 0.5,小于 (F, BF) 的期望收益 1。因此可知当参与人 1 选择 B 时不存在纳什均衡。当然,以上分析在策略式表达的矩阵中是显而易见的,这里想说的是,对于这种简单的博弈,写出完整的策略式表达并不是必须的。

5.2.2 双方具有不完全信息的性别战博弈

下面的例子是性别战博弈的另一个变体,这里我们假设双方都不确定对方是否愿意和自己约会。我们可以将这种情形描述为四个双矩阵

\begin{align*} & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} & & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} \\ y_1 y_2 : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 2,1 & \ \ 0,0 \\ 0,0 & \ \ 1,2\end{pmatrix} & \quad \quad y_1 n_2 : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 2,0 & \ \ 0,2 \\ 0,1 & \ \ 1,0 \end{pmatrix} \\ \\ & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} & & \ \ \begin{matrix} \ \ \ F & \ \ \ \ B \end{matrix} \\ n_1 y_2 : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 0,1 & \ \ 2,0 \\ 1,0 & \ \ 0,2\end{pmatrix} & \quad \quad n_1 n_2 : \quad \begin{matrix} F \\ B \end{matrix} & \begin{pmatrix} 0,0 & \ \ 2,2 \\ 1,1 & \ \ 0,0 \end{pmatrix} \\ \end{align*}

每个参与人 iy_in_i 两个类型,每个双矩阵对应一组类型组合。每种组合实现的概率如 Table 5.1 所示。

Table 5.1: 类型组合的实现概率
类型 t y_1 y_2 y_1 n_2 n_1 y_2 n_1 n_2
p(t) 2/6 2/6 1/6 1/6

有两种方法可以用来计算此博弈的纳什均衡。第一种是首先画出博弈树,然后写出对应的策略式表达并寻找纳什均衡。第二种是逐一验证每个策略组合是否符合纳什均衡的定义。下面我们尝试第二种方法。

现在每个参与人都拥有四个策略,即 FF, FB, BFBB(第一个行动对应类型 y_i,第二个行动对应 n_i)。而根据 Table 5.1,参与人可以很容易地计算对方类型的条件概率。例如

p(y_2 \mid y_1) = \frac{p(y_1y_2)}{p(y_1)} = \frac{p(y_1y_2)}{p(y_1y_2) + p(y_1n_2)} = \frac{2/6}{2/6 + 2/6} = \frac{1}{2} 同理可得其他条件概率

p(n_2 \mid y_1) = \frac{1}{2}, \quad p(y_2 \mid n_1) = \frac{1}{2}, \quad p(n_2 \mid n_1) = \frac{1}{2} \\ \phantom{\Bigg(} p(y_1 \mid y_2) = \frac{2}{3}, \quad p(n_1 \mid y_2) = \frac{1}{3}, \quad p(y_1 \mid n_2) = \frac{2}{3}, \quad p(n_1 \mid n_2) = \frac{1}{3}

接下来我们依次考察参与人 1 的四个纯策略。

  1. 假设参与人 1 选择策略 FF,即在类型 y_1n_1 时都选择行动 F。此时,类型 y_2 的参与人 2 选择 F 的期望收益是
    p(y_1 \mid y_2) \cdot 1 + p(n_1 \mid y_2) \cdot 1 = \frac{2}{3} \cdot 1 + \frac{1}{3} \cdot 1 = 1
    而选择 B 的期望收益是
    p(y_1 \mid y_2) \cdot 0 + p(n_1 \mid y_2) \cdot 0 = \frac{2}{3} \cdot 0 + \frac{1}{3} \cdot 0 = 0
    因此类型 y_2 的参与人 2 的最佳响应是 F。同理,类型 n_2 的参与人 2 选择 F 的期望收益是
    p(y_1 \mid n_2) \cdot 0 + p(n_1 \mid n_2) \cdot 0 = \frac{2}{3} \cdot 0 + \frac{1}{3} \cdot 0 = 0
    而选择 B 的期望收益是
    p(y_1 \mid n_2) \cdot 2 + p(n_1 \mid n_2) \cdot 2 = \frac{2}{3} \cdot 2 + \frac{1}{3} \cdot 2 = 2
    可知最佳响应是 B。因此参与人 2 对参与人 1 的策略 FF 的最佳响应是 FB。现在我们反过来假设参与人 2 选择策略 FB,即在类型 y_2 时选择 F 而在类型 n_2 时选择 B。此时,类型 y_1 的参与人 1 选择 F 的期望收益是
    p(y_2 \mid y_1) \cdot 2 + p(n_2 \mid y_1) \cdot 0 = \frac{1}{2} \cdot 2 + \frac{1}{2} \cdot 0 = 1
    而选择 B 的期望收益是
    p(y_2 \mid y_1) \cdot 0 + p(n_2 \mid y_1) \cdot 1 = \frac{1}{2} \cdot 0 + \frac{1}{2} \cdot 1 = \frac{1}{2}
    因此最佳响应是 F。类型 n_1 的参与人 1 选择 F 的期望收益是
    p(y_2 \mid n_1) \cdot 0 + p(n_2 \mid n_1) \cdot 2 = \frac{1}{2} \cdot 0 + \frac{1}{2} \cdot 2 = 1
    而选择 B 的期望收益是
    p(y_2 \mid n_1) \cdot 1 + p(n_2 \mid n_1) \cdot 0 = \frac{1}{2} \cdot 1 + \frac{1}{2} \cdot 0 = \frac{1}{2}
    因此最佳响应是 F。也就是说参与人 1 对参与人 2 的策略 FB 的最佳响应是 FF。策略 FFFB 互为最佳响应,因此 (FF, FB) 是纳什均衡。

  2. 假设参与人 1 选择策略 FB。此时类型 y_2 的参与人 2 选择 F 的期望收益是
    p(y_1 \mid y_2) \cdot 1 + p(n_1 \mid y_2) \cdot 0 = \frac{2}{3} \cdot 1 + \frac{1}{3} \cdot 0 = \frac{2}{3} 而选择 B 的期望收益是
    p(y_1 \mid y_2) \cdot 0 + p(n_1 \mid y_2) \cdot 2 = \frac{2}{3} \cdot 0 + \frac{1}{3} \cdot 2 = \frac{2}{3}
    因此 FB 都是最佳响应。类型 n_2 的参与人 2 选择 F 的期望收益是
    p(y_1 \mid n_2) \cdot 0 + p(n_1 \mid n_2) \cdot 1 = \frac{2}{3} \cdot 0 + \frac{1}{3} \cdot 1 = \frac{1}{3}
    选择 B 的期望收益是
    p(y_1 \mid n_2) \cdot 2 + p(n_1 \mid n_2) \cdot 0 = \frac{2}{3} \cdot 2 + \frac{1}{3} \cdot 0 = \frac{4}{3}
    因此 B 是最佳响应。参与人 2 对参与人 1 的策略 FB 的最佳响应策略有两个,即 FBBB。从第 (1) 条中已知参与人 1 对参与人 2 的策略 FB 的最佳响应是 FF 而不是 FB,因此 (FB, FB) 不是纳什均衡。而对于 BB,以同样的方式计算可知参与人 1 的最佳响应是 BF 而非 FB,因此 (FB, BB) 也不是纳什均衡。

  3. 假设参与人 1 选择策略 BF。此时参与人 2 的最佳反应为 BFBB。对于 BF,参与人 1 的最佳反应是 FF,而对 BB 的最佳反应是 BF。因此,只有 (BF, BB) 是纳什均衡。

  4. 最后,假设参与人 1 选择策略 BB。参与人 2 的最佳反应是 BF。对此,参与人 1 的最佳反应是 FF 而非 BB。因此这种情况下不存在纳什均衡。

综上所述,这个博弈有两个纯策略纳什均衡:

  • (FF, FB),即两个类型的参与人 1 都选择 F,类型 y_2 的参与人 2 选择 F,类型 n_2 的参与人 2 选择 B

  • (BF, BB),即类型 y_1 的参与人 1 选择 B,类型 n_1 的参与人 1 选择 F,而两个类型的参与人 2 都选择 B

这两个均衡也都是贝叶斯均衡。

5.3 信号传递博弈

在上一节中我们看到,不完全信息静态博弈可以表达为一个(不完美信息)扩展式博弈,其中首先以随机选择的方式确定参与人的类型。扩展式博弈也可以用来描述包含序贯行动的不完全信息博弈,一个重要的例子就是下面介绍的信号传递博弈。

信号传递博弈首先以随机选择的方式确定参与人 1 的类型。参与人 1 能观察随机选择的结果,但参与人 2 不能。随后参与人 1 进行选择,而参与人 2 在观察到参与人 1 的选择结果后再进行选择,之后博弈结束。之所以称为信号传递博弈(signaling game),是因为参与人 1 的行动有可能成为自身类型的信号,即参与人 2 或许可以以参与人 1 的行动为依据推测参与人 1 的类型。

5.3.1 一个例子

5.3.2 计算扩展式博弈中的完美贝叶斯均衡

5.3.3 直觉标准

5.3.4 另一个例子