引用:Wang, Z., Xu, B., & Zhou, H.-J. (2014). Social cycling and conditional responses in the Rock-Paper-Scissors game. Scientific Reports, 4(1), 5830–5830. https://doi.org/10.1038/srep05830
内容:https://doi.org/10.1038/srep05830
- 研究背景:石头剪刀布(RPS)游戏是研究竞争与决策的重要模型。经典纳什均衡(NE)理论和进化博弈理论对玩家决策方式预测不同,且实证研究匮乏,哪种理论更适用于描述人类决策尚存争议,同时缺少定量测量 RPS 游戏中循环行为的方法。
- 研究目的:探究 RPS 游戏中循环现象的普遍性,揭示玩家决策机制,对比 NE 理论和条件响应(CR)机制对玩家行为的解释能力,从非平衡统计物理角度理解人类竞争行为。
- 研究对象:360 名浙江大学学生,组成 60 个规模为 6 人的群体参与游戏实验。
- 研究方法:采用随机两两匹配实验协议,设置不同收益参数,让玩家进行 300 轮 RPS 游戏,获取实验数据;通过计算行动概率、循环数和频率等分析数据,构建并求解 CR 模型。
- 研究结果:个体玩家行动选择接近 NE 混合策略但存在相关性和惯性效应;群体层面存在持续循环运动,循环频率与收益参数无关;NE 理论和独立决策模型无法解释循环行为,CR 模型能较好预测循环频率,优化后可使玩家获得更高收益。
- 研究亮点:改进循环计数方法,发现离散时间更新行动也会出现群体循环运动;提出 CR 模型,从非平衡统计物理角度研究人类竞争行为。
- 研究启发:不能仅依据行动边际分布研究决策过程;CR 模型有进一步研究价值;为重新分析实验数据提供新思路,有助于探索人类大脑决策机制。
这个研究打开了有关博弈论的研究方法和研究术语。
首先,其中提到的纳什均衡(Nash equilibrium),又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。这对我们研究多方参与的教育实践也有借鉴价值,特别是许多时候学生与教师的关系不是合作性质的,而是带有博弈的,教师的决策和教学有时候需要根据学生的反应作出调整,这将使得教师能够以最小的力气发挥最大的效果。
其二,该研究提到了演化博弈理论(Evolutionary Game Theory)。演化博弈理论的一个经典案例是“囚徒困境”(Prisoner’s Dilemma),这个案例不仅在经典博弈论中非常重要,也在演化博弈论中扮演着核心角色。囚徒困境描述了两个理性个体在无法沟通的情况下,如何做出最优策略选择的问题。故事背景是这样的:两个犯罪嫌疑人被分别关押,无法相互沟通。警方没有足够的证据将他们定罪,所以试图让他们互相揭发对方。如果两人都保持沉默,他们都将因为证据不足而只被判轻罪;如果一方揭发对方而另一方保持沉默,揭发者将被释放,而沉默者将受到重判;如果两人都互相揭发,他们都将受到中等程度的惩罚。在经典博弈论中,每个囚犯都会理性地选择揭发对方,因为这是最大化个人利益的策略。然而,这种策略导致的结果对双方都不是最优的,因为如果两人都选择合作(保持沉默),他们将获得更好的结果。
实际上,在教育领域中,这种视角来审视教育现象的研究特别少。但博弈论毋庸置疑是存在于教育现象中的。
本研究的选题比较新颖,从生活中非常常见的石头剪刀布游戏出发,探究背后大家往往忽略的科学原理。并且研究从非平衡统计物理角度研究人类竞争行为,拓宽了传统博弈论研究的视野,为该领域的理论发展提供了新的方向,有助于探索人类大脑决策机制等深层次问题。在研究方法层面,本研究采用随机两两匹配实验协议并设置不同收益参数,让玩家进行 300 轮游戏,能够获取较为丰富的实验数据,减少了实验结果的偏差,可以更稳定地观察玩家行为,为后续分析提供基础。
建议标题改改,研究主题再明确一点哈