【投教e课堂】 “囚徒困境”——个人的理性与合作的非理性

2021-11-22 来源:东海证券 作者:杨润曦

1637565042136653.jpg

假如换一个方式思考 Angel



“囚徒困境”,是博弈论中的一个经典理论假设。下面这个故事可以很好地解释这个名词的含义。


我们假设有一起盗窃汽车重案的两个嫌疑犯,比尔(B)和杰克(J),他们被警察局逮捕并进行审讯。嫌疑人知道警察缺乏足够证据,无法指控他们有罪,除非他们中的一个招供。如果他们都坚持不招供,至多是一个很轻的判决。于是,专家建议警方将两人隔离,同时分别告诉他俩认罪的条件:


一、如果其中一个招供并说出证据,他将被轻判1年,而另一人将被判12年;

二、如果两人同时招供,他们都将被判6年;

三、若谁都不招供他们将同时被判3年。


这样,每个人就面临1年、3年、6年、12年四种选择,不论是那种结果,都取决于对方的选择。


为了清晰起见,我们把两个参与者可能做出的决策,用下表来表示比尔(B)和杰克(J)可能采取的行动,这个表也被称之为收益矩阵(payoff table)。在A、B、C、D每个格里,是根据警方的认罪条件列出的两人可能被判罚的四种结果,以名字的首字母+年限表示。比如,收益矩阵中格A、格D分别表示比尔和杰克都不招供和都招供的结果;格B、格C表示一个招供而另一个不招供的结果。

1637565147166947.jpg


根据警方的认罪条件,两个人都知道有这样一个收益矩阵。警方的策略就是两人的审讯同步进行,把嫌疑人互相隔离,所以他们不知道对方会做什么决策而形成攻守同盟。


我们先站在比尔一边,他会想杰克肯定会在招供和不招供当中抉择。如果比尔招供而杰克不招供,比尔会得到1年的轻判;如果杰克也选择招供,则两人都选择了招供会得到6年判决,比不招供被重判12年的惩罚要好得多。因此对比尔而言,理性的决策就是选择招供,能得到比不招供更好的结果——无论杰克如何做,比尔自己都能得到更轻的宣判。


处于同样的原因,杰克唯一理性的做法也是选择招供。因此,在警方看来当他俩都选择招供时,他们并不为结果感到吃惊。


看到这里,读者会问到一个聪明的问题。那就是比尔和杰克可以在他们实施犯罪之前“约定都不招供”,只判3年应该比都被判6年要更好么?


我们可以设身处地思考,假如比尔信任杰克会遵守诺言不招供,但比尔有动机违背诺言,使自己可以只轻判1年而不是3年,我们称之为有“欺诈的动力”。如果比尔不信任杰克,预计杰克会违背诺言而招供呢,他更好的选择也是违背诺言而招供。


同理,杰克同样具有“欺诈的动力”,也会有这样理性的思考,做出和比尔同样的决策而选择招供。所以,警方的推理就是,如果没有什么手段使他们严格遵守诺言不招供,比尔和杰克都可能违背诺言而招供。毫无疑问,两个嫌疑犯都将选择无论对方做何种选择,结果都对自己更为有利的“上策”,他们最终都会以格D的结果结束,而不是选择坚持不招供的格A更好的结果。


“囚徒困境”在这里呈现给读者的是一个“矛盾的结果”。现实生活中不缺少这样的场景,在经济学里也是被研究最多的一种决策方法。在博弈理论里,囚徒困境引出以下“战略决策原理”——无论对手做何种决策,自己都能获得更好结果的策略,我们称之为上策。一个理性的决策者总会选择采用上策,并且预计如果对方有上策,也会采用上策。


一旦上策找到,很容易预测当双方都有上策时的博弈结果。这样的结果称之为上策均衡(dominant-strategy equilibrium)。当所有竞争对手都拥有上策,并且是上策均衡,且都不如合作决策结果更好时,囚徒困境就会产生而影响决策选择。案例表明,个人做出理性选择时往往导致双方合作(集体)的非理性。在收益矩阵中的假设条件,是各方抉择中“走上策”的关键,也是引起“欺诈动力”的实质性因素。



满意度调查

满意度调查

您对网站提供的内容和浏览体验是:

您的改进意见和建议是:

还可以输入300字符/汉字

您的称呼

联系方式(电话、QQ、微信或邮件)


查看满意度

满意度调查

返回参与满意度调查