Skip to content
Go back

第二讲 完全信息静态博弈

Edit page

第二讲 完全信息静态博弈

主要内容:

什么是完全信息静态博弈?

标准式博弈

在完全信息博弈中,参与人的策略集就是行动集合; 标准式可以用矩阵表示两个人的有限策略博弈;

构建过程案例:囚徒困境

u1(u_1( 沉默 | 沉默 )=1)=-1 , u1(u_1( 沉默 | 坦白 )=9)=-9 , u1(u_1( 坦白 | 沉默 )=0)=0 , u1(u_1( 坦白 | 坦白 )=6)=-6 u2(u_2( 沉默 | 沉默 )=1)=-1 , u2(u_2( 沉默 | 坦白 )=0)=0 , u2(u_2( 坦白 | 沉默 )=9)=-9 , u2(u_2( 坦白 | 坦白 )=6)=-6

博弈求解

解法一:重复剔除严格劣策略

重复剔除严格劣策略的解法就是,通过剔除严格劣策略来将现有博弈转化为一个新的博弈,再对新的博弈重复上述过程,直到无法剔除为止,得到博弈的解; 对于离散型博弈,我们通常使用划线法剔除严格劣策略得到博弈的解; 缺陷:

解法二:最优反应策略

ui(si,si)ui(si,si),siSiu_i(s_i, s_{-i}) \ge u_i(s_i', s_{-i}), s_i' \in S_i

那么我们说该策略 sis_i 为最优反应策略;

由于一个理性人总会对其他人选择的策略 sis_{-i} 选择自己的最优反应策略 sis_i 。因此博弈可以被转化为求解:

maxsiSiu(si,si)\max\limits_{s_i \in S_i} u(s_i, s_{-i}^*)

解出来的结果为:{si,si}\{s_i^*, s_{-i}^*\} Nash 均衡是一个策略组合,这个组合中每个参与人针对其他参与人的策略所选择的反应是最优反应,且每个参与人都不愿意独自离开选定的策略。 对于离散博弈,通常使用划线法选择相对占优策略的交集寻找 Nash 均衡解;

ps:一个博弈的 Nash 均衡解是剔除严格劣策略的解的子集;

连续型博弈

对于连续型博弈,不能使用划线法得到解。我们通常联系支付函数的一阶导数,另一阶导数为 0 得到最优反应策略;

例题 1

  1. 中间选民:设有一批选民的政策倾向在一个单位区间从左(x = 0)至右(x = 1)均匀分布,为一个职位参加竞选的两个候选人同时选择其竞选的政策倾向(即在 x = 0 到 x = 1 中间的一个点)。选民观察候选人的选择,然后把票投给其政策倾向离自己最近的候选人。获得选票数量更多的候选人将获胜。如果两个候选人选择相同的政策倾向,则平分所得选票。如果两人获得选票数量相同,谁当选由掷硬币来决定。
  2. n 个厂商的 Cournot 模型:假设在 Cournot 寡头垄断模型中有 n 个厂商。设 qi 为厂商 i 的产量,同时设 Q = q1 +…+qn 为总产量。设 P(Q)为市场出清价格(当需求为 Q 时),并假设反需求函数为 P(Q) = a – Q,这里 Q ≤ a。假设这些厂商都没有固定成本且产量为 qi 时生产成本为 cqi(所有的厂商都有相同的边际成本,同时假设 c < a)。

  1. 中点选民: 参与人:候选人 AA , BB 行动:A1=S1=x1,A2=S2=x2,0x1,x21A_1=S_1={x_1 }, A_2=S_2={x_2 }, 0≤x_1, x_2≤1 不妨设 x1x2x_1≤x_2, 支付: u1(x1,x2)=(x1+x2)/2u_1 (x_1, x_2 )= (x_1+x_2)/2 u2(x1,x2)=1(x1+x2)/2.u_2 (x_1, x_2 )= 1-(x_1+x_2)/2. 为求得最优反应函数,我们需要求解: max0x1x2u1(x1,x2)=(x1+x2)/2\max \limits_{0≤x_1≤x_2}u_1 (x_1, x_2^*) = (x_1 + x_2^*)/2 maxx1x21u2(x1,x2)=1(x1+x2)/2\max \limits_{x_1≤x_2≤1}⁡u_2 (x_1^*, x_2 )=1-(x_1^*+x_2)/2 得到最优反应函数: x1=x2x_1^*=x_2^* x2=x1x_2^*=x_1^* 得到 Nash 均衡解(x1,x2)(x_1^*, x_2^* ),且 x1=x2x_1^*=x_2^*。而此时u1(x1,x2)=u2(x1,x2)=x2=1x2=1/2u_1 (x_1^*, x_2^* )=u_2 (x_1^*, x_2^*)=x_2^*=1-x_2^*=1/2 所以最后均衡解为 (1/2,1/2)(1/2, 1/2).
  2. N 个厂商的 Cournot 模型: 参与人:厂商 1,2,3,,n1, 2, 3, \dots, n 行动:Ai=Si=qi[0,a]A_i=S_i=q_i∈[0, a] 支付: ui(qi)=P(Q)Q=(aQc)qiu_i (q_i )=P(Q)Q=(a-Q-c) q_i 对于企业 i 为求得最优反应函数,需要求解: max0qiaui(qi,q1)=(aqiqic)qi\max \limits_{0≤q_i≤a}⁡ u_i (q_i, q_{-1}^*) = (a-q_i - q_{-i}^* - c)q_i 得到最优反应函数: qi=(acqi)/2q_i^*=(a-c-q_{-i}^*)/2 联立 n 个企业的最优反应函数求得 Nash 均衡为:(q1,q2,,qn)(q_1^*, q_2^*, \dots, q_n^*)Q=q1+q2++qnQ^*=q_1^*+q_2^*+⋯+q_n^* 满足以下条件: Q=n(ac)/(n+1)Q^* = n(a-c)/(n+1)

混合策略均衡

有些博弈并没有纯策略的 Nash 均衡,比如猜字游戏,我们找不出绝对的最优策略,每个参与人最合理的做法便是随机选择策略,这种随机化选择策略的做法就是混合策略的思想;

由于引入了概率,于是我们便用分布函数来描述支付函数,参与人 ii 选择纯策略 sis_i 的支付函数表示为,其他参与人所选择策略的概率分布函数的期望(收益由他人的选择决定)

例题 2

  1. 求解下述博弈的混合战略 Nash 均衡:

两个企业各有一个工作空缺,假设企业所给的工资不同:企业 ii 给出的工资为 wiw_i ,这里12w1<w2<2w1\dfrac{1}{2}w_1 < w_2 < 2w_1。设想有两个工人,每人只能申请一份工作,两人同时决定是申请企业 1 的工作,还是向企业 2 申请。如果只有一个工人向一个企业申请,他就会得到这份工作;如果两个工人同时向一个企业申请工作,则企业随机选择一个工人,另一人就会失业(这时收益为 0)。

u1(w1,w1)=12w1,u1(w1,w2)=w1,u1(w2,w1)=w2,u1(w2,w2)=12w2u_1(w_1, w_1)=\dfrac{1}{2}w_1, \quad u_1(w_1, w_2)=w_1, \quad u_1(w_2, w_1)=w_2, \quad u_1(w_2, w_2)=\dfrac{1}{2}w_2 u2(w1,w1)=12w1,u2(w1,w2)=w2,u2(w2,w1)=w1,u2(w2,w2)=12w2u_2(w_1, w_1)=\dfrac{1}{2}w_1, \quad u_2(w_1, w_2)=w_2, \quad u_2(w_2, w_1)=w_1, \quad u_2(w_2, w_2)=\dfrac{1}{2}w_2

import matplotlib.pyplot as plt
plt.plot([0, 0.6, 0.6, 1], [1, 1, 0, 0])
plt.xlabel('q-label')
plt.ylabel('r-label')
plt.show()

picture 2

import matplotlib.pyplot as plt
fig, ax = plt.subplots()

ax.plot([0, 0.6, 0.6, 1], [1, 1, 0, 0])
ax.plot([0, 0, 1, 1], [1, 0.6, 0.6, 0])
fig.suptitle("r-q")
ax.grid(True, linestyle='-.')
ax.tick_params(labelcolor='r', labelsize='medium', width=3)
plt.xlabel('q-label')
plt.ylabel('r-label')
plt.show()

picture 3

所以,混合策略均衡为(2w1w2w1+w2,2w1w2w1+w2\dfrac{2w_1 - w_2}{w_1 + w_2}, \dfrac{2w_1 - w_2}{w_1 + w_2}).

Nash 均衡存在性

nn 个参与人的标准式博弈 G={N;(Ai);(ui);}G = \{N; (A_i); (u_i); \} 中,如果 nn 是有限的,且对于每个参与人 ii 的策略集 SiS_i 也是有限的,则博弈存在至少一个 Nash 均衡,均衡也可能包含混合策略。


Edit page
Share this post on:

Previous Post
第三讲 完全信息动态博弈
Next Post
第四讲 不完全信息静态博弈