【游戏设计原理】20 - 囚徒困境

一、分析与总结

1. 核心思想

囚徒困境是一种非零和博弈模型，揭示了理性自利个体在决策时的矛盾：在短期利益和长期合作之间往往存在冲突。

合作与背叛：博弈者可以选择合作（短期牺牲，换取长远收益）或背叛（短期收益最大化，可能导致双方损失）。
理性与现实：理论上，完全理性的博弈者在单次博弈中选择背叛，而重复博弈中会尝试合作以获取长期收益。
行为策略：诸如"以牙还牙"策略，强调初始友好、惩罚背叛和恢复合作，表明理性与非理性策略的结合可能更有效。

2. 应用意义

理性与信任：博弈结果揭示了信任和合作的重要性，尤其在长期关系中。
多轮博弈影响：连续互动会影响参与者的策略调整和行为模式，构成复杂的动态平衡。
策略灵活性：从"以牙还牙"到随机策略，显示了在不确定性下保持灵活的重要性。

二、囚徒困境在游戏设计中的应用

1. 引入玩家间的互动与决策

多人合作博弈：让玩家决定合作还是竞争，例如资源分配、战斗策略等，创造深度互动。
- 案例：在《Among Us》中，玩家必须通过合作完成任务，但潜伏的内鬼则会背叛，从而引发信任与怀疑。
背叛奖励机制：设计合理的背叛奖励和合作奖励，让玩家在利弊之间权衡。
- 案例：在《文明》系列中，玩家可以选择与其他文明结盟（合作）或背叛（战争），而背叛可能带来短期收益但长期损失外交信任。

2. 激励重复博弈与长期合作

循环决策机制：通过设计多轮博弈，让玩家基于过去的行为调整策略。
- 案例：在《欧陆风云》系列中，不同国家之间的外交关系（合作或背叛）会积累影响，从而塑造后续博弈环境。
渐进奖励系统：鼓励玩家选择长期合作策略，达到"帕累托最优"。
- 案例：MMORPG游戏中的公会机制，通过奖励团队合作来实现持续收益。

3. 模拟真实社会中的矛盾

信任与利益冲突：将囚徒困境引入游戏世界观，模拟社会或经济矛盾。
- 案例：《黑道圣徒》中的帮派争夺利益情景中，玩家需要决定是否与竞争帮派合作以对抗共同敌人。
非对称性与动态博弈：设计非对称玩家角色，让每个人的利益冲突更加复杂。
- 案例：《黎明杀机》中，杀手和幸存者之间存在合作（暂时拖延）与竞争（逃脱或击杀）的动态。

4. 通过AI实现丰富的博弈体验

智能AI策略：为游戏中AI角色设计"以牙还牙"或"随机背叛"等复杂行为，使游戏更富挑战性。
- 案例：《文明》AI会根据玩家的外交行为调整合作与背叛策略，增强互动感。
动态博弈学习：让AI根据玩家行为进化策略，模拟真正的囚徒困境场景。
- 案例：在《星际争霸》中，AI敌人会分析玩家的战术，调整策略进行反击。

5. 创造玩家情绪共鸣

道德与情感冲突：通过囚徒困境机制，引发玩家对信任、背叛和道德选择的思考。
- 案例：《巫师3》中玩家可以选择帮助村民解决问题（合作）或趁机获取利益（背叛），而决定会影响后续剧情和NPC态度。

6. 团队合作与竞赛机制

公地悲剧与团队博弈：模拟资源分配和集体选择的难题，增强团队博弈的紧张感。
- 案例：《堡垒之夜》中，团队模式需要分配资源，玩家决定是合作共赢还是自私独占。

总结

囚徒困境是一个强大的设计工具，适用于多种类型的游戏，通过玩家之间的信任、背叛和动态策略，创造复杂的互动体验。在设计中要注意平衡短期和长期奖励、合作与背叛的权重，以及让玩家感受到行为选择的深远影响。结合囚徒困境机制的游戏，往往能带来更具挑战性和策略深度的体验，同时激发玩家的情感共鸣和思考。

原文：

原理20 囚徒困境

囚徒困境（Prisoner's Dilemma）是一个简单的博弈模型，用来解释为什么两个博弈者在决策时会分别作出对自身最优解以外的选择，而通过合作能达成更好的结果。该模型描述了序数得益（参见原理19"得益"）的同期非零和博弈（通常是对称的）中的相互信任。这种博弈假设博弈者是理性自利的（参见原理1"游戏的对称性/非对称性和同步性"和原理100"零和博弈"）。尽管如此，博弈中常常能看到合作（甚至在博弈者无法沟通的情况下），这种合作行为会得到重奖，并伴随着帕累托最优中的相互合作（参见原理18"帕累托最优"）。

博弈可以按照传统方式进行，如单一决策或重复决策，从而产生基于过去结果的行为模式。

在下表中，当一个囚徒选择合作时，即他保持沉默支持另一囚徒；当选择背叛时，即他向审判者告发另一囚徒。

囚徒1(P1) / 囚徒2(P2)	合作	背叛
合作	每人获刑6个月 (A:A)	P1获刑5年，P2无罪释放 (C:B)
背叛	P1无罪释放，P2获刑5年 (B:C)	每人获刑2年 (D:D)

只要满足 B > A > D > C 且这些得益成比例，游戏不需要是对称的（symmetrical）。

注：B 是无罪释放的情况，得分最高；C 是获刑5年的最差情况。因此得分排列为 B > A > D > C。

囚徒困境的特性

如果两个博弈者连续完成多次囚徒困境情景，并基于对方的过去行为形成印象，他们将会开始根据对方的行为规划策略。

已知 N 次游戏
在连续玩 N 次（N 已知）的情况下，最合理的策略是每次都背叛对方。然而，在实践中，大多数人不会超理性到意识到这种行为能最大化自身利益。他们更可能每次都与对方合作，并在最后一次背叛。然而，如果假定对方会这么做，这会导致推断对方也会在最后一次背叛。于是双方在倒数第二轮背叛，这种循环可能一直推至开局。
未知 N 次游戏
当 N 未知时，合作行为更容易出现，因为每次合作能带来持续得益，此时博弈不再遵循"占优策略"（参见原理84"占优策略"），而是达到一种"纳什均衡"（参见原理17"纳什均衡"）。

"以牙还牙"策略

事实上，一些看似不完全理性的策略在实际中更加成功。其中最基本的一种是 "以牙还牙"（Tit-for-Tat），具体为：

初始合作：第一轮选择合作。
模仿对方：每轮的选择都复制对方上一轮的行为。

罗伯特·阿克塞尔罗德（Robert Axelrod）提出了策略成功的四个必要条件：

友好（Nice）：不要首先背叛（尽量合作）。
不嫉妒（Non-Envious）：不要试图比对方得到更多（优化平衡积分）。
报复（Retaliating）：对方背叛时立即报复（不要永远合作）。
宽容（Forgiving）：报复后恢复合作（前提是对方也停止背叛）。

非传统策略

一些非传统方法也表现出一定成功，比如：

随机背叛：随机选择合作或背叛，可在对手友好时获得小额额外利益。
巴甫洛夫回馈（Pavlovian Reward）：当对手重复自己上一轮行为时选择合作。
团队合作：通过"最小/最大化"策略（参见原理75"最小/最大化"），团队中部分成员故意输掉以帮助其他成员赢得更多，并通过内部暗号交流。

新进展

威廉姆斯·普雷斯（William Press）和弗里曼·戴森（Freeman Dyson）提出了"零行列式策略"（Zero-Determinant Strategy），即通过让对方相信某种特定选择来控制博弈。这种策略利用假信息获取优势，但只能在允许沟通的场景中发挥作用，例如扑克中的"迷惑战术（bluffing）"。尽管该策略仅提供短暂优势，但它重新开启了对囚徒困境的研究，并可能进一步推动"超游戏思维"（参见原理47"超游戏思维"）的理解。

囚徒困境的应用

囚徒困境最早由梅尔文·德雷希尔（Melvin Dresher）和梅里尔·弗勒德（Merrill Flood）在1950年提出（命名者为阿尔伯特·杜克【Albert Tucker】）。

其广泛应用领域包括：

经济学：业务拓展和广告活动中的决策。
军事决策：如武装升级与裁军选择。
心理学：作为成瘾模型的决定性因素。
生物进化：研究基因和社会欲望如何影响个人需求。

这一模型成为理性与非理性行为对比的有力工具，并帮助分析数学概率范围之外的潜在动机。