量化研究方法
资源
评论
关注
粉丝
我的设置编辑个人资料
私信列表所有往来私信
进入后台管理
概览
发布的
订单
邀请码
收藏
设置
第二个疑惑那里,0.941是人工编码一致性,是研究者作为评分的基准。ChatGPT用以预测批判性思维这个结果。晓峰提到的这个框架本身的问题确实值得思考,模型是固定的,ChatGPT的表现可能依赖prompt和框架的输入,所以仍然可能是人工的复现
谢谢,“它判分跟学生本身的水平没啥关系,不是学霸就更受待见,后进生就一定低分”这句话非常通俗易懂地解释了ChatGPT没有受到主观打分的一些影响,所以ChatGPT赋能教育评价以及洞察学生的批判性思维这点的价值是可以被挖掘的。不过研究也提出了颗粒度不够清晰以及仍然需要依靠人工评分为主,说明人的主体性还是依然重要的
这项研究给我的启发是,它没有停留在“实验组后测分数更高”这种比较表层的结论上,而是进一步追问学生的学习变化是如何发生的、增长速度是否不同,以及自我调节能力的提升是否真的与词汇成绩的提升同步。用潜变量增长模型来分析7个月的追踪数据,确实比单纯前后测或重复测量ANOVA更能体现学习过程的动态性,这对教育技术干预研究很有借鉴意义。
不过我也有一点疑惑:研究虽然用了LGM,但只有3个测量时间点,能够支持的增长形态相对有限,基本只能检验线性变化,很难判断学生的发展是否存在“先快后慢”或“后期加速”等更复杂轨迹。此外,自我调节能力和词汇成绩增长速度之间相关较强,并不必然说明前者直接导致后者,也可能受到学习动机、教师支持、家庭环境等共同因素影响。因此,这项研究的方法设计很有亮点,但在解释机制时仍需要保持谨慎。总体来看,它最大的价值在于提醒我们:教育技术研究不应只问“有没有效果”,还应进一步关注“效果如何随时间发展”。
补充: 标签 选题关键词:生成式人工智能、ChatGPT、教育评价、批判性思维、在线同伴反馈、高等教育、学习分析 研究方法关键词:人机编码比较、文本分类、编码框架、同伴反馈分析、AI 辅助评价、实证研究 数据分析方法关键词:Cohen’s kappa、一致性检验、准确率、模糊率、错误率、Precision、Recall、F1 score、混淆矩阵 适用领域关键词:教育技术、学习科学、在线学习、形成性评价、学生过程性数据分析
发现很多人都有过这样的体验,晚上刷拼多多喝抖音连续下了十几个9.9的订单,第二天早上起来后,发现很多都是冲动消费,遂退单,最后可能发现其实没有什么是必须要买的。但是我有一个疑惑,研究者是如何研究【研究一:北京某连锁餐饮18家门店的21,280条线下消费记录研究2: 27家快餐店的506,409条外卖订单(覆盖196,421名消费者、3个外卖平台)】,如何通过研究2得出跨平台比价行为?因为一条数据是在一个平台上下单的,但是每个人用不同平台的习惯可能不太一样。如何得出有些数据是通过比价行为后发现某个平台更便宜而下单的?
成都春熙路那块人流量确实很大,街道很有活力,路上经常能看到有人拍短剧和跳舞。但是我很好奇,研究是怎么得出街道活力的量化指标,热力图吗?以及人口密度的数据是怎么得到的?
我在生活中,比如大龙焱火锅,我起初看到也很难快速完整的念出,但是当我在美团等平台反复看到他们家的广告,并且这家店真的吸引到我想去店消费时,我可能就会去店里消费,即使我还是不知道生僻字的读音。我觉得这个现象是品牌方在设计名字时会从很多角度来考虑,比如三个火 四个火()这样的组合的生僻字可以让人快速联想到与火锅热辣滚烫的联系。另外,人在无意经过门店或看到招牌时,可能会被招牌和门店宣传等吸引。所以我自己感觉,对于一些初次见到的产品(很多新兴品牌)或者那些长期耳濡目染的产品(如Apple)的“典型性”和“熟悉性”是需要时间培养的。比如,你即使听说过很多次Apple的产品,但你不一定会选择这个品牌。所以我对实验中短暂的培训和量表打分这种短暂的效应会产生一点“怀疑”,特别是如果有些产品还是研究者自己虚构或者造出来的。同时我也很好奇,研究者是如何区分典型产品和非典型产品的呢?
哇!感谢老师,很有意思很新颖的另一个角度思考,我们作为个体确实会更喜欢一些善意和鼓励性的言论或评论,特别是发自内心的。其实在我自己刷社交媒体的评论时,也会发现我们本身就置于算法的框架下,我们在短时间内看到的可能是平台和算法想让我们看到的评论,而所有人都被罩在了这个算法下,被迫看到自己“平台认为你想看到的”,很可能会置于另一种“信息茧房”中,也确实容易处于一种隐蔽的规训压力。我至少在生活中发现,每个人的小红书和抖音都是不一样的内容。
Powered by DeepSeek | 智慧教学平台
我是专为量化研究设计的智能助手。支持 Markdown 和 LaTeX 公式。
您可以问我:
第二个疑惑那里,0.941是人工编码一致性,是研究者作为评分的基准。ChatGPT用以预测批判性思维这个结果。晓峰提到的这个框架本身的问题确实值得思考,模型是固定的,ChatGPT的表现可能依赖prompt和框架的输入,所以仍然可能是人工的复现
谢谢,“它判分跟学生本身的水平没啥关系,不是学霸就更受待见,后进生就一定低分”这句话非常通俗易懂地解释了ChatGPT没有受到主观打分的一些影响,所以ChatGPT赋能教育评价以及洞察学生的批判性思维这点的价值是可以被挖掘的。不过研究也提出了颗粒度不够清晰以及仍然需要依靠人工评分为主,说明人的主体性还是依然重要的
这项研究给我的启发是,它没有停留在“实验组后测分数更高”这种比较表层的结论上,而是进一步追问学生的学习变化是如何发生的、增长速度是否不同,以及自我调节能力的提升是否真的与词汇成绩的提升同步。用潜变量增长模型来分析7个月的追踪数据,确实比单纯前后测或重复测量ANOVA更能体现学习过程的动态性,这对教育技术干预研究很有借鉴意义。
不过我也有一点疑惑:研究虽然用了LGM,但只有3个测量时间点,能够支持的增长形态相对有限,基本只能检验线性变化,很难判断学生的发展是否存在“先快后慢”或“后期加速”等更复杂轨迹。此外,自我调节能力和词汇成绩增长速度之间相关较强,并不必然说明前者直接导致后者,也可能受到学习动机、教师支持、家庭环境等共同因素影响。因此,这项研究的方法设计很有亮点,但在解释机制时仍需要保持谨慎。总体来看,它最大的价值在于提醒我们:教育技术研究不应只问“有没有效果”,还应进一步关注“效果如何随时间发展”。
补充:
标签
选题关键词:生成式人工智能、ChatGPT、教育评价、批判性思维、在线同伴反馈、高等教育、学习分析
研究方法关键词:人机编码比较、文本分类、编码框架、同伴反馈分析、AI 辅助评价、实证研究
数据分析方法关键词:Cohen’s kappa、一致性检验、准确率、模糊率、错误率、Precision、Recall、F1 score、混淆矩阵
适用领域关键词:教育技术、学习科学、在线学习、形成性评价、学生过程性数据分析
发现很多人都有过这样的体验,晚上刷拼多多喝抖音连续下了十几个9.9的订单,第二天早上起来后,发现很多都是冲动消费,遂退单,最后可能发现其实没有什么是必须要买的。但是我有一个疑惑,研究者是如何研究【研究一:北京某连锁餐饮18家门店的21,280条线下消费记录研究2: 27家快餐店的506,409条外卖订单(覆盖196,421名消费者、3个外卖平台)】,如何通过研究2得出跨平台比价行为?因为一条数据是在一个平台上下单的,但是每个人用不同平台的习惯可能不太一样。如何得出有些数据是通过比价行为后发现某个平台更便宜而下单的?
成都春熙路那块人流量确实很大,街道很有活力,路上经常能看到有人拍短剧和跳舞。但是我很好奇,研究是怎么得出街道活力的量化指标,热力图吗?以及人口密度的数据是怎么得到的?
我在生活中,比如大龙焱火锅,我起初看到也很难快速完整的念出,但是当我在美团等平台反复看到他们家的广告,并且这家店真的吸引到我想去店消费时,我可能就会去店里消费,即使我还是不知道生僻字的读音。我觉得这个现象是品牌方在设计名字时会从很多角度来考虑,比如三个火 四个火()这样的组合的生僻字可以让人快速联想到与火锅热辣滚烫的联系。另外,人在无意经过门店或看到招牌时,可能会被招牌和门店宣传等吸引。所以我自己感觉,对于一些初次见到的产品(很多新兴品牌)或者那些长期耳濡目染的产品(如Apple)的“典型性”和“熟悉性”是需要时间培养的。比如,你即使听说过很多次Apple的产品,但你不一定会选择这个品牌。所以我对实验中短暂的培训和量表打分这种短暂的效应会产生一点“怀疑”,特别是如果有些产品还是研究者自己虚构或者造出来的。同时我也很好奇,研究者是如何区分典型产品和非典型产品的呢?
哇!感谢老师,很有意思很新颖的另一个角度思考,我们作为个体确实会更喜欢一些善意和鼓励性的言论或评论,特别是发自内心的。其实在我自己刷社交媒体的评论时,也会发现我们本身就置于算法的框架下,我们在短时间内看到的可能是平台和算法想让我们看到的评论,而所有人都被罩在了这个算法下,被迫看到自己“平台认为你想看到的”,很可能会置于另一种“信息茧房”中,也确实容易处于一种隐蔽的规训压力。我至少在生活中发现,每个人的小红书和抖音都是不一样的内容。