反事实解释为何是一把双刃剑?——用Beta回归捕捉三阶交互效应的实验研究

1. 导语

当AI告诉一名青少年”如果你现在更用功一点,你的数学成绩将会在80分以上”,他会因此更努力,还是反而产生抗拒?

这项发表于《Computers & Education》的研究揭示了一个反直觉的发现:反事实解释(counterfactual explanation) 对青少年决策的影响,完全取决于情境配置(感知控制(perceived control)感知可靠性(perceived reliability) 和时间框架(time frame) 的交织作用)。

■ 图1:当因素可控且AI预测可靠时,反事实解释反而降低行动意愿
当讨论的是学生认为”可控”的因素(如数学动机、认知激活),且AI的反事实解释被认为是可靠的时候,学生的决策概率(decision-making probability) 反而显著低于仅提供预测的条件。研究者推断,这是因为”可控且被说中”的反事实劝诫,在青少年中触发了心理逆反(psychological reactance)

■ 图2:当时间框架拉长至一年后,反事实解释成为最强推手
但当AI的预测指向一年后而非一个月后,反事实解释却呈现了相反的效应模式——决策概率显著高于短期条件下的反事实解释。因为在遥远而未知的未来面前,”如果…那么…”的叙事能够重建信任,激发改变的动力。

这项研究通过一个预调查和两个受控在线实验(Experiment 1: N=158; Experiment 2: N=225),系统考察了解释类型×感知控制×感知可靠性的三阶交互(three-way interaction)以及解释类型×时间框架的二阶交互(two-way interaction),为”解释的效果取决于情境”这一命题提供了精密的量化证据。

反事实解释为何是一把双刃剑?——用Beta回归捕捉三阶交互效应的实验研究

图1 人工智能解释类型、感知控制和可靠性对青少年决策的交互影响

反事实解释为何是一把双刃剑?——用Beta回归捕捉三阶交互效应的实验研究

图2 人工智能解释类型和时间框架对青少年决策的交互作用

2. 方法的基本信息

(1)核心思想

本研究的方法论核心是 “交互效应驱动的实验设计”(interaction-driven experimental design)。研究者没有简单地询问”哪种AI解释更好”,而是基于以下理论推演,假设解释的效果必然与情境因素交互:

  • 感知控制(perceived control):个体对自己能否实现预期成就水平的信心。本研究将其操作化为因素层面的属性——高控制因素(high-control factors)指学生既认为其影响大、也愿意采取行动去改变的因素;低控制因素(low-control factors)则相反。

  • 感知可靠性(perceived reliability):用户对AI预测准确性的主观判断。本研究将其操作化为每个试次中AI预测方向与用户自评分数是否一致的实时匹配结果。

  • 时间框架(time frame):AI预测指向的时间距离——短期(1个月)或长期(1年)。其理论依据来自解释水平理论(Construal Level Theory) 和社会情绪选择理论(Socioemotional Selectivity Theory)

核心假设是:解释类型的主效应可能微弱甚至不显著——真正决定解释效果的,是它与这些心理情境变量的交互作用。

(2)独特价值

创新点 具体内容 方法论优势
Beta回归适配零一膨胀比例数据 因变量(期望概率、决策概率)为[0,1]区间的连续变量,实际分布呈U型,存在极端值堆积 避免线性回归的估计偏误和预测值越界问题;Beta分布族可灵活拟合边界堆积的比例数据
参与者聚类稳健标准误(participant-clustered robust standard errors) 每名被试贡献10个试次(trial),数据存在试次嵌套于个体的非独立性 在不依赖多层模型(multilevel model)强分布假设的前提下,通过”三明治”协方差矩阵(sandwich covariance matrix)合理修正标准误和置信区间
多模型敏感性分析(sensitivity analyses) 四种替代模型平行验证:拟二项广义线性模型、非参数检验、混合效应Beta回归、广义估计方程(GEE) 确保核心发现不依赖单一统计模型设定,通过多模型三角验证增强研究信度
变量编码的情境化操作 “感知可靠性”由AI预测与被试自评的实时匹配度定义,而非事后主观评分 更贴近真实的人机对话体验——用户是在实时交互中形成对AI可靠性的判断

(3)关键产出

Beta回归产生的核心结果是不同条件下期望概率和决策概率的估计边际均值(estimated marginal means, EMM) 及其组间差异。这些EMM直接量化了:

  • 实验1中 解释类型(explanation type)×感知控制(perceived control)×感知可靠性(perceived reliability) 三阶交互的方向与量级

  • 实验2中 解释类型×时间框架(time frame) 二阶交互的方向与量级

所有简单效应比较均采用Bonferroni校正,并以参与者聚类方差-协方差矩阵为推断基础。

3. 方法的操作过程

(1)应用原则

  • 预调查奠基(pre-investigation):正式实验前,基于PISA项目156项研究的系统综述,初步识别40个候选因素。通过定量筛选(几何距离排序)和定性筛选(内容去重),最终确定10个代表性因素,并基于期望和决策两个维度编码为高控制(4个)和低控制(6个)。这一步骤确保了实验材料的结构效度(structural validity)。

  • 严格操纵与精细测量的结合:解释类型(预测/因果/反事实)为被试间变量(between-subjects),感知控制和感知可靠性为被试内变量(within-subjects)。这种混合设计(mixed design)能够同时获得被试间比较的因果效力与被试内比较的统计效率。

  • 理论驱动的协变量选择:人口学(年龄、性别)、社会经济地位(SES)、数学信心(math confidence)、AI熟悉度(AI familiarity)、对AI预测准确性的信念(belief on prediction accuracy of AI)、归因风格(attribution style——内外、稳定性、可控性三个维度)、思维方式(thinking style——改善/恶化/无)等变量,基于已有文献作为协变量纳入模型。

  • 多重数据筛选保障:三道质检关卡——因素性质理解检查(排除对因素正负影响方向判断错误的被试)、注意力检查(排除AI熟悉度前后回答不一致的被试)、实验有效性检查(排除数学极差、无提升意愿、不了解影响因素、从未听说AI、不信任AI回答、不相信AI预测的被试)。经筛选,样本从184降至158(实验1)。

(2)操作步骤

如图3所示,整个研究流程始于预调查(Pre-investigation)。研究者基于PISA项目156项研究的系统梳理,初步识别40个候选因素,通过定量筛选(几何距离排序)和定性筛选(内容去重),最终确定10个代表性因素,并依据期望与决策两个维度的评分将其编码为高控制因素与低控制因素。这一步骤为正式实验提供了结构效度良好的实验材料。

正式实验包含两个子实验,如图3中部所示。实验1(N=158)采用3(解释类型:预测/因果/反事实)× 2(感知控制:高/低)× 2(感知可靠性:可靠/不可靠)混合设计;实验2(N=225)采用3(解释类型)× 2(时间框架:短期1个月/长期1年)被试间设计。两个实验均通过Gradio平台模拟在线AI对话界面。

单次实验流程如下:被试首先完成前测问卷(人口学、AI经验、归因风格、思维方式等协变量);随后进入人机交互任务,共10个试次——每试次中,被试先对当前因素进行自评打分,AI根据被试所属实验条件给出预测、因果解释或反事实解释的反馈,被试随即对该因素的期望影响程度和决策意愿进行0-100评分;全部试次结束后,被试完成后测问卷,报告对AI表达清晰度和理解难度的主观评价。实验1和实验2的操作流程一致,仅自变量操纵不同。

进入分析阶段(图3右侧),期望和决策的原始评分除以100并压缩边界值(0→0.001,1→0.999)以适配Beta回归的开区间要求,随后依次进行主效应与交互效应建模、简单效应分析,并通过拟二项GLM、非参数检验、混合效应Beta回归和GEE四种替代模型进行敏感性分析。

反事实解释为何是一把双刃剑?——用Beta回归捕捉三阶交互效应的实验研究

图3 研究概述

注:这是论文的方法论骨架图。左侧展示了从”问题提出”到”预调查”再到”实验1/实验2″的完整流程;中间呈现了两个实验各自的设计框架(实验1:3×2×2混合设计;实验2:3×2被试间设计);右侧展示了”Beta回归建模 → 估计边际均值计算 → 简单效应分析 → 敏感性分析”的四层分析架构。

(3)数据分析方法

① Beta回归:因应数据的特殊分布

期望和决策的原始评分在[0,100]区间存在大量0和100的极端值堆积,整体呈U型分布,严重违反正态假设。研究者将分数除以100并压缩边界(0→0.001,1→0.999),随后采用Beta回归作为主模型。Beta分布族的优势在于能够灵活拟合(0,1)区间内的各种分布形态——包括本研究中的U型数据——避免了线性回归的估计偏误和预测值越界问题。模型以logit函数为链接,采用最大似然估计,预测变量包含三阶交互(实验1)或二阶交互(实验2)及所有低阶效应和协变量。

② 聚类稳健标准误:处理数据的非独立性

实验中每名被试完成10个试次,同一被试的评分天然相关,违反独立同分布假设。研究者选择以参与者聚类稳健标准误处理这一问题:在估计回归系数不变的前提下,通过“三明治”协方差矩阵对标准误、置信区间和Wald检验进行修正,从而控制任意形式的试次内相关和异方差。这一策略的优势在于不依赖多层模型对随机效应分布的正态假设,推断更为稳健。

③ 简单效应分析:分解高阶交互

三阶交互显著后,计算各组估计边际均值(EMM),基于聚类稳健协方差矩阵进行简单效应比较。具体而言,在控制其他变量后,比较三种解释类型在不同感知控制和感知可靠性组合下的EMM差异。事后比较采用Bonferroni校正,效应量以ΔEMM及其95%置信区间报告。

④ 敏感性分析:检验结果的模型依赖性

为验证核心发现是否依赖于Beta回归或聚类稳健推断的特定设定,研究者额外运行了四种替代模型:拟二项GLM(更换分布族)、非参数检验(放弃参数假设)、混合效应Beta回归(通过随机效应处理非独立性)、广义估计方程GEE(通过工作相关矩阵处理非独立性)。四种模型逐一确认了交互效应的方向与显著性,与主模型结论一致,增强了结果的信度。

4. 方法的应用启示

(1)适用情境

本研究的方法论价值不在于某一单项技术的突破,而在于针对数据特性与设计结构的精准匹配。以下将这套方法组合拆解为四个相对独立的模块,各自对应不同的方法需求场景。

① 多因素混合设计:当研究问题关注交互效应时

本研究的核心问题不是“哪种解释更好”,而是“解释的效果如何被情境调节”。这要求研究设计必须能够同时容纳多个调节变量,并系统操纵其水平组合——实验1纳入了解释类型(操纵)、感知控制(测量)和感知可靠性(测量)三个变量;实验2纳入了解释类型(操纵)和时间框架(操纵)。当研究假设指向的是变量间“取决于”(it depends)的关系模式,而非简单的A优于B时,仅操纵单一变量的实验设计将无法回答这类问题。此时需要采用多因素设计,并将理论推演出的调节变量纳入研究框架。

② Beta回归:当因变量是[0,1]区间的比例数据时

在教育学和心理学的实验研究中,因变量常以比例、概率、百分比等形式出现——如本研究中被试对“我愿意采取行动”的0-100评分。这类数据往往在边界处堆积,整体分布呈U型或J型,严重违反正态假设。Beta回归专门适配(0,1)区间的连续数据,通过Beta分布族灵活拟合各种非对称形态,避免了线性回归的估计偏误,也无需像逻辑回归那样将连续数据强行二值化造成信息损失。凡是遇到类似的评分数据,Beta回归都应被优先考虑。

③ 聚类稳健标准误:当数据存在试次嵌套于个体的非独立性时

在被试内设计中,同一被试的多个试次天然相关——比如此研究中每名学生对10个因素逐一评分。忽视这种相关性会导致标准误低估和假阳性率上升。处理此类非独立性有两条路径:一是多层模型(指定随机效应),二是聚类稳健标准误(保持系数估计不变,仅修正标准误)。本研究选择后者,优势在于不依赖正态随机效应的分布假设,对任意形式的试次内相关和异方差均保持稳健。当研究者对随机效应结构的正确设定没有充分把握时,聚类稳健推断是更安全的选择。

④ 敏感性分析:当模型选择存在多种可能时

量化研究中,同一组数据往往可以匹配多种统计模型——Beta回归可行,拟二项GLM也可行;聚类稳健标准误可行,混合效应模型或GEE也可行。不同的模型设定可能导致不同的显著性结论。敏感性分析的核心逻辑是:不宣称某一模型为唯一正确解,而是检验核心发现在不同模型设定下是否一致。本研究中,四种替代模型均确认了交互效应的方向与显著性,为结论提供了多模型三角验证的支撑。当模型选择存在多种合理性且没有绝对的唯一标准时,研究者应考虑汇报敏感性分析的结果。

(2)个人思考与值得探讨的新问题

■ 问题一:平均效应能代表所有人吗?

论文报告的是条件层面的平均效应。然而,一张“反事实解释在可控/可靠条件下降低决策意愿”的EMM均值图,可能掩盖了群体内部的关键异质性:可能有相当比例的学生因反事实而“被激励”,另一些则因反事实而“逆反”,两者在均值上相互抵消。如果将分析视角从条件层面的聚类推断转向个体层面的异质性建模,是否可以引入潜在类别分析(latent class analysis)或增长混合模型(growth mixture modeling),识别出对反事实解释存在异质性反应的青少年亚群体?

■ 问题二:心理逆反是被检验的因果通道,还是论文的叙事逻辑?

论文在讨论部分将反事实解释在可控条件下的负效应归因于心理逆反——但这并未被直接测量。换句话说,逆反是作者叙事的逻辑,而非被数据验证的因果链。如果要在实验设计中正式检验“反事实解释 → 感知自主权威胁 → 逆反情绪 → 降低决策意愿”这一因果路径,是否需要增设每试次后的利克特自评量表?是否可以引入因果中介分析(causal mediation analysis),将逆反作为中介变量纳入模型?

■ 问题三:感知控制能从“因素属性”转变为“动态状态”吗?

本研究通过预调查将感知控制编码为因素的静态属性——动机是“高控制”,班级规模是“低控制”。这种操作化的优势在于其稳定性,但它丢弃了感知控制的试次间波动:一个学生可能在阅读AI的因果解释后,控制感瞬间变化。如果未来研究在每试次后加入“此刻你觉得自己能在多大程度上改变这个因素?”的实时自评,感知控制就可以从因素层面的分类变量变为试次层面的连续调节变量,从而捕捉更精细的动态交互过程。这会带来哪些分析上的新机遇和新挑战?

5. 论文基本信息

引用:Shen, Z., Chen, Y., Zhang, J., & Chen, H. (2026). How explanatory features of AI and time frame reshape adolescents’ decision-making. Computers & Education, 248, 105563. https://doi.org/10.1016/j.compedu.2026.105563.

Keywords:21st century abilities; Secondary education; AI; Explanatory features; Decision-making

附件

研究解读

ChatGPT 能看懂学生的批判性思维吗?一项基于在线同伴反馈的实证检验

2026-4-26 14:09:01

研究解读

多模态内容分析法的缘起、设计与应用

2026-4-26 16:33:30

2 条回复 A文章作者 M管理员
  1. cixiaow

    文燕对这篇论文的方法论解剖非常透彻,尤其是你指出的感知控制操作化为静态因素属性可能丢失试次间波动这一点,很有洞察力。顺着这个思路,如果未来研究将感知控制作为试次层级的连续调节变量,那么Beta回归的三阶交互模型就需要调整为包含时变协变量的动态结构。这会不会带来新的挑战,比如如何区分感知控制的瞬时变化是由解释类型本身触发的,还是由被试对任务的整体适应过程引起的?

    • 何文燕

      老师您提的这个问题,说实话我自己也想得不是很清楚。我当时写帖子的时候就有感觉,把感知控制变成动态的虽然想法好,但真要做起来确实很难——它到底是真被AI的解释影响了,还是单纯因为学生做久了状态变了,这两种情况搅在一起,我目前也不太能想到一个特别干净的办法把它们拆开。

量化研究 AI 助手

Powered by DeepSeek | 智慧教学平台

👋 欢迎使用!

我是专为量化研究设计的智能助手。支持 MarkdownLaTeX 公式

您可以问我:

  • 如何解读回归分析的 R² 和 P 值?
  • 写一段 R 语言代码进行因子分析。
  • 什么是认知诊断模型(CDM)?