基于增量学习算法的混合课程学生成绩预测模型研究

一、导语

混合课程学情预测总被 “批量学习无法更新、模型不支持新数据、预测波动大” 卡脖子？这篇清华团队发表在电化教育研究（CSSCI）的论文，用增量学习随机森林（OnRF）破解难题 —— 模型可随新数据持续迭代、样本越大越准、大样本下预测稳定性大幅提升，直接适配高校混合课程动态学情监测、过程性预警、跨学期模型复用，是教育大数据与机器学习结合的可落地、可复现前沿方法，为教育技术、学习分析、教育大数据方向的量化研究提供全新思路与可复刻的实操方案。

二、方法的基本信息

1. 核心思想

以增量学习替代传统批量学习，依托课程持续更新的时序数据，无需整合全部历史样本、无需重复全局训练，以渐进式学习的方式持续纳入新班级、新课程、新周期的学习行为数据，基于随机森林的集成学习优势，处理混合课程高维在线行为特征，不断优化模型决策树结构与权重参数，挖掘在线学习行为与期末学业成绩之间的非线性关联关系，实现学生学业等级的精准预测。

2. 独特价值

（1）动态迭代：新增数据无需重新训练全量模型，直接更新模型参数；

（2）大样本增效：样本规模越大，预测准确率越高，稳定性显著优于批量学习；

（3）适配教育场景：贴合混合课程 “数据持续产生、学情动态变化” 的真实教学逻辑。

3. 关键产出

（1）理论产出：界定高活跃混合课程的核心特征，明确适配教育行为数据的增量建模适用条件；

（2）模型产出：构建增量随机森林（OnRF）成绩预测模型，并与传统批量随机森林模型形成对照体系；

（3）数据结论：验证了样本数量临界值规律，当课程样本量达到 41 门以上时，增量模型预测效果趋于稳定；

（4）方法产出：形成针对教育偏态行为数据的预处理、校正、降维、建模一体化量化操作体系。

三、方法的操作过程

1. 应用原则

（1）同质性筛选原则

优先选取学习行为丰富、学生自主学习差异显著的高活跃型混合课程，剔除互动量极低、数据同质化严重的课程，保障变量具有区分度。

（2）数据客观性原则

全程依托智慧教学平台后台原始行为数据，无主观打分、人为赋值，保证量化数据真实客观。

（3）双组对照原则

全程采用批量随机森林模型 VS 增量随机森林模型平行对照，控制变量一致，客观对比两种算法的优劣。

（4）适度校正原则

教育学习行为数据普遍存在偏态、极值、离散问题，遵循弱干预校正原则，仅做标准化与分布修正，不篡改原始数据特征。

（5）分层评估原则

不单一使用准确率指标，结合分类研究常用的查全率、F1 值、离散程度等多维指标，综合评判模型性能。

2. 完整操作步骤

步骤 1：研究样本与原始数据采集

选取国内高校混合式在线课程为研究对象，汇总跨学年多批次教学数据，涵盖 73 门混合课程、7188 名本科生样本。

从智慧教学平台后台抓取20 项原始在线学习行为指标，包含：课程登录频次、资源浏览时长、视频观看完成度、章节测验作答情况、课堂互动次数、作业提交质量、论坛讨论行为等；

因变量为学生期末课程成绩，按照高校考核标准划分为 5 个等级，构建多分类预测研究框架。

步骤 2：原始数据清洗与基础预处理

① 缺失值处理：剔除大面积行为数据缺失的无效样本，补全微量随机缺失值；

② 异常值剔除：结合箱线图法识别极端异常数据，剔除挂机刷课、恶意刷分等无效干扰样本；

③ 数据标准化：统一不同维度行为指标的量纲，消除数值量级差异对模型运算的干扰。

步骤 3：数据分布校正与特征优化

教育行为数据多呈现右偏态分布，无法直接适配机器学习算法的运算要求。

针对性开展双重数据变换处理：采用对数变换、指数变换方式修正数据分布，弱化极值干扰，使行为数据趋近于正态分布，提升模型拟合效果。

步骤 4：课程类型聚类筛选

采用 K-Means 聚类算法对全部课程进行聚类分析，依据学生行为均值、标准差、个性化差异指数三大指标，划分高、中、低三类活跃度课程；

最终筛选高活跃混合课程作为核心研究样本，保证变量差异显著、研究结论具有代表性。

步骤 5：对照组与实验组模型搭建

① 对照组：批量随机森林模型（RF），汇总全部 73 门课程数据，一次性完成全量训练、参数拟合与成绩预测；

② 实验组：增量在线随机森林模型（OnRF），按照课程时序顺序逐批录入样本，模型逐次迭代更新，不重置整体结构、不重复全量训练。

步骤 6：模型超参数调试与训练约束

统一控制两类模型基础参数：决策树数量、节点分裂规则、随机采样比例一致；

采用交叉验证方式规避过拟合、欠拟合问题，保证对照实验的公平性与科学性。

步骤 7：模型输出与结果统计

分别输出两组模型的成绩分类预测结果，汇总各项评价指标数值，计算数据标准差，对比分析模型精准度与稳定性差异。

3. 核心数据分析方法

（1）描述性统计分析

对 20 项在线学习行为自变量、五级成绩因变量开展基础统计，计算均值、标准差、偏度、峰度，精准判断学习行为数据的分布特征，明确数据偏态、离散化等问题，为后续数据校正提供数据支撑。

（2）数据分布修正分析法

针对教育数据普遍存在的非正态、强偏态问题，运用数学变换法开展量化校正：

对数变换：压缩高值区间数据，降低极端学习行为样本的权重干扰；
指数变换：优化低值数据区分度，弥补低频学习行为指标辨识度不足的问题；
通过变换前后分布对比检验，确认数据优化效果，满足机器学习算法的数据输入要求。

（3）K-Means 聚类分析

无监督聚类算法，用于课程分层筛选：

以学生整体学习行为的聚合特征为聚类依据，自动划分课程活跃度类型，量化区分高活跃课程与低互动课程，解决人为分类的主观性偏差，实现研究样本客观筛选。

（4）随机森林集成学习算法（批量版）

经典集成机器学习方法，基于多棵决策树并行运算：

① 采用自助采样法抽取样本子集、特征子集，降低单一决策树过拟合风险；

② 以基尼系数作为节点分裂依据，挖掘各学习行为指标与成绩的非线性影响关系；

③ 整合多棵决策树投票结果，输出多分类预测结果，作为基准对照模型。

（5）增量在线随机森林算法（核心创新分析方法）

本研究前沿核心量化方法，在传统随机森林基础上做增量改良：

① 增量迭代机制：模型无需加载全量历史数据，新增课程样本可逐条、逐批输入；

② 动态树结构更新：保留原有成熟决策树框架，仅新增分支、微调节点权重，大幅降低运算量；

③ 时序数据适配：适配教学数据逐年、逐学期新增的时序特征，实现模型长期可持续更新。

（6）多分类模型效能检验

区别于二分类研究，本研究为五级成绩多分类任务，采用多维度综合评价体系：

准确率：整体预测正确样本占比，反映模型整体精准度；
精确率：各成绩等级下预测结果的可信程度；
查全率：真实等级样本被成功识别的覆盖能力；
F1 综合值：平衡精确率与查全率，客观反映综合分类性能；
标准差分析：计算多批次实验结果的离散程度，量化评判模型稳定性，是本研究重点新增的量化分析维度。

（7）阈值对比分析

以课程数量为变量，设置梯度样本量实验，统计不同样本规模下增量模型的指标变化规律，通过趋势分析确定模型稳定运行的临界样本阈值，为后续研究提供量化参考标准。

4. 方法逻辑流程图

基于增量学习算法的混合课程学生成绩预测模型研究

四、方法的应用启示

1. 适用情境

（1）教育大数据研究场景

混合式课程、线上通识课、智慧课堂等具备持续产生时序行为数据的教学场景，适配长期化、连续性量化研究。

（2）学业预警与精准教学场景

可落地于高校日常教学管理，依托增量模型实时更新学生学习状态数据，实现阶段性学业风险预判，辅助教师开展分层教学、个性化干预。

（3）教育测评与质量评估场景

用于分析学习行为、学习投入、线上互动等隐性变量与学习结果的关联，丰富过程性评价的量化工具。

（4）跨周期追踪研究场景

适合跨学期、跨学年的追踪式量化调研，解决传统模型无法持续更新、重复建模成本高的现实难题。

2. 个人思考

第一，从方法层面来看，传统教育量化研究长期依赖回归、结构方程等经典统计方法，对非线性、高维、时序数据的处理能力有限。增量机器学习算法的引入，能够很好适配教育大数据复杂化、动态化的发展趋势，是未来教育技术量化研究的重要发展方向。

第二，从数据层面来看，该研究提醒我们：教育行为数据并非天然适配算法建模，偏态、离散、同质化等问题会严重影响研究结果。严谨的数据预处理与分布校正，是保障量化研究科学性的基础，这也是很多新手量化研究容易忽视的关键环节。

第三，从实践层面来讲，增量模型低成本、可迭代的优势，非常契合中小学、高校智慧校园建设需求，能够实现一套模型长期复用，兼具科研价值与实践落地价值。

第四，从研究设计来看，双模型对照、多指标检验的研究设计，极大提升了结论的可信度，这种严谨的对照研究范式，值得所有教育量化研究借鉴。

3. 值得探讨的新问题

（1）本次研究仅基于学习行为单一数据维度，未来能否结合表情、眼动、课堂语音等多模态数据，进一步提升增量模型的预测精度？

（2）该模型以高校混合课程为样本，算法参数与筛选标准是否适用于中小学线上线下融合教学场景，仍需要进一步实证检验。

（3）依托全量学习行为数据开展持续建模，如何平衡学情分析的价值与学生个人数据隐私保护的伦理要求？

（4）当前增量算法存在一定运算门槛，如何简化操作流程，让一线教师、非计算机专业教育研究者能够快速上手使用？

五、论文基本信息

罗杨洋,韩锡斌.基于增量学习算法的混合课程学生成绩预测模型研究[J].电化教育研究,2021,42(07):83-90.DOI:10.13811/j.cnki.eer.2021.07.012.

3 条回复 A文章作者 M管理员

更换删除

cixiaowM

4月30日

晓霄对增量学习随机森林在混合课程成绩预测中的应用梳理得非常清晰，尤其是双模型对照和多指标检验的设计，确实提升了结论的可信度。顺着这个思路，如果将该模型迁移到中小学线上线下融合场景，考虑到中小学生行为数据更稀疏、课程周期更短，增量学习的临界样本阈值是否需要重新界定？此外，多模态数据的引入会显著增加特征维度，增量随机森林的树结构更新机制能否有效应对高维动态特征？这或许是一个值得深入探讨的方向。
- 孙晓霄A@cixiaowM userslv0
  
  4月30日
  
  感谢老师的细致点评与提问！！
  首先，把增量随机森林迁移到中小学线上线下融合场景，由于中小学生学习行为数据更稀疏、课程周期更短、行为维度更少，我认为原论文得出的41 门课程临界样本阈值不能直接套用，可能需要重新做梯度样本实验、重新界定适配中小学场景的模型稳定阈值。
  第二，未来引入眼动、表情、课堂语音等多模态数据后，特征维度会显著增加，我觉得增量随机森林自带的动态树结构更新机制，理论上具备应对高维动态特征的潜力，但存在高维特征冗余，后续可以做特征精简，再搭配增量森林的迭代更新机制，去适配多模态高维时序数据。
谢沐村 userslv0

5月7日

这篇聚焦清华团队增量学习随机森林（OnRF）模型的研究解析，紧扣当下混合式教学普及、教育大数据爆发的现实背景，直击传统批量学习模型“无法动态迭代、预测稳定性差、重复训练成本高”的行业痛点，提出的解决方案兼具学术创新性与实践落地性，是教育技术与机器学习融合研究的优质范例。高校混合课程学情数据具备时序性、持续性、高维度的特点，传统机器学习模型需要整合全量数据重新训练，无法适配跨学期、跨课程的动态监测需求，而本文介绍的OnRF模型依托增量学习机制，无需重复全局训练，可直接纳入新数据更新参数，大样本下预测准确率与稳定性大幅提升，还明确了41门课程的样本稳定临界值，为实际教学应用提供了量化参考标准。

{{userData.name}}已认证

一、导语

二、方法的基本信息

1. 核心思想

2. 独特价值

3. 关键产出

三、方法的操作过程

1. 应用原则

2. 完整操作步骤

步骤 1：研究样本与原始数据采集

步骤 2：原始数据清洗与基础预处理

步骤 3：数据分布校正与特征优化

步骤 4：课程类型聚类筛选

步骤 5：对照组与实验组模型搭建

步骤 6：模型超参数调试与训练约束

步骤 7：模型输出与结果统计

3. 核心数据分析方法

（1）描述性统计分析

（2）数据分布修正分析法

（3）K-Means 聚类分析

（4）随机森林集成学习算法（批量版）

（5）增量在线随机森林算法（核心创新分析方法）

（6）多分类模型效能检验

（7）阈值对比分析

4. 方法逻辑流程图

四、方法的应用启示

1. 适用情境

2. 个人思考

3. 值得探讨的新问题

五、论文基本信息

HINA：用网络分析揭示学习过程中的异构互动

桂林山水公园景观视觉偏好研究

量化研究 AI 助手