历时性词嵌入法 | 知乎论坛中的政见缘何爆火?

1. 导语

历时性词嵌入法重新定义爆火言论!网络政治争锋中为什么有的人一开口就是爆款热梗,而有的人明明情绪拉满、态度鲜明却无人在意?研究利用一个新颖的数据集来追踪中国网民在在线论坛上对美国政治的讨论,并采用创新的历时词嵌入方法来检验文化力量的关键预测因素。论调新不新并非与同期的其他言论进行比较,而是与过去公共领域中已发表的言论进行比较。

2.方法的基本信息

2.1 核心思想

研究援引社会互动中的“共鸣”概念以及布迪厄关于语言能力的见解以阐明在中国的政治讨论中某些思想脱颖而出的影响因素,对文化权力的关键预测变量——新颖性、情感、地位和语言特征进行建模。

关于新颖性的测量,采用历时性词嵌入模型的度量方法。研究在带有时间标签并按照时间顺序组织的中文政治讨论语料上,用Word2Vec训练出历时性词向量模型词向量模型的核心思想是通过考察每个目标词及其局部上下文词,来“学习”词语之间的关系,学习过程通过神经网络实现,该网络利用随机梯度下降和反向传播算法,以最小化对目标词及上下文词在给定语料库中出现情况的错误预测。由此产生的词向量表示编码了语义信息,能够成功解决各种自然语言处理问题,包括类比测试、词性标注和命名实体识别,并得到随讨论进程不断演化的语义空间,通过将文本的新颖性与既有的“话语建构”进行对比,而非与其同时期的文本进行比较,从而有效解决了测量问题。被更频繁地共同使用的概念在语义空间中会更相似,而那些很少被共同讨论的概念则相似度较低。在每个时间点,词向量模型的调整意味着当前文本片段中被共同讨论的概念将反映在生成的模型中,而那些曾被共同讨论的概念先前出现但未出现在当前文本片段中,其关联关系要么保持不变,要么会减弱,这取决于概念网络其余部分的变化情况。因此,历时性词嵌入模型不仅反映了当前的文本片段,还通过累积演变的语义网络关系,反映了截至当前时间点之前发生的整个语篇

鉴于点赞数的分布呈现过度分散的特征,研究采用零膨胀负二项式(ZINB)计数回归模型来分析共鸣及其预测变量之间的关系。与典型的负二项分布不同,数据中零值数量呈膨胀状态,且零赞帖子与非零赞帖子的数据生成过程涉及不同的机制。使用ZINB模型时,帖子获得的预期赞数通过一个协变量向量进行建模。

为了考虑新颖度与点赞数之间可能存在的曲线关系,协变量向量中包含了新颖度的二次项。由于新颖度的原始得分范围相对较大,为了减少与二次项的多重共线性,将新颖度得分标准化为均值为0、标准差为1,然后将其平方以获得二次项(标准化后的)新颖性及其平方项均被纳入方程。同样地,为减少与新颖度及篇幅二次项的多重共线性,答案长度也被标准化为均值为0、标准差为1。为检验关键预测变量的非线性关系,作者粉丝数(对数转换)、词汇多样性及英语使用频率的二次项也被纳入模型。

2.2独特价值

研究向社会学领域引入了一种动态运用词向量模型的新方法,该方法已被引入政治学领域。其利用具有时间维度的词向量模型探索各类社会学问题的潜力,使其成为社会学工具的补充。凭借这一改进,研究中测量的“新颖性”反映了其与不断变化的话语结构之间的动态关系。

  1. “新颖性”指标测量方式的修正。以往研究在测量文化对象的新颖性时,往往将其与同一时间点的其他文本进行横向比较。这种做法虽然便于操作,但并不完全符合新颖性的理论含义。因为受众在理解某个观点时,并不是将它与同时出现的全部竞争文本进行比较,而是将其放入此前已经形成的知识经验和话语记忆之中进行判断。该研究将新颖性的参照对象从“同时期文本”转向“此前形成的话语建制”,从而使测量方式更贴近文化共鸣理论。
  2. 捕捉话语结构的动态演化。研究将2011—2017年的论坛讨论按周切分,形成“年—周”子语料,并在每一时间点以上一时间点的模型为基础继续训练词向量模型。每一个时间片段都对应一个反映当时概念关系的语义空间。通过这种方式,研究不仅能够观察某些词语是否出现,还能够观察概念之间的关联关系如何随时间逐渐加强、减弱或重组。
  3. 将文本中的“概念组合”转化为可进入统计模型的变量。研究在文本描述的基础上进一步将新颖性、情绪、作者地位和语言特征等因素纳入同一解释框架,检验它们对文化共鸣的影响。该方法的价值不仅在于提供了一种新的文本计算技术,更在于使文化权力如何形成这一抽象问题获得了经验检验路径,把原本难以直接观察的文化共鸣、话语新颖性和概念距离,转化为可以被计算、比较和建模的研究对象。

2.3关键产出

  1. 研究证实了新颖性与共鸣之间存在曲线关系,但同时也发现,新颖性的效果只有在新颖性水平达到相当高的程度时才会开始减弱。新颖性在其分布的大部分时间里都有积极的影响。
  2. 情绪与文化权力之间并不存在简单的正线性关系。相反,轻微或中度的情绪最为有效,这很可能是由数据来源的讨论论坛特有的“群体风格”和言语规范所驱动的,揭示了情感社会学中的两个理论疏漏:①情感与共鸣之间的因果联系很可能受到局部互动规范(即社区形成的群体风格)的介导;②要把握情感与共鸣之间的关系,关注不同类型的制度化情感,可能比仅关注从负面到正面或从中性到强烈的价值量表更为有效。
  3. 研究发现布迪厄式的文化权力机制——文化资本的信号传递与筛选。当这一做法没有被过度发挥时,使用多样化的词汇和相关的外语有效地增加了文本的共鸣,这很可能是因为受众在特定的论坛讨论背景下,将这些做法与更高的语言和社会能力联系起来。以前的研究忽略了文化力量的这一因素,因为先前所研究的文化对象的样本已经被预先筛选以满足一定的复杂性标准——就好比被剧院认为是足够好的戏剧才得以上演。然而,一旦观察到思想选择的无中介过程,具象化的文化资本便会在受众如何体验和评价文化对象中发挥作用。综合文化权力的相关理论和研究,研究为文化社会学家理解社会互动中的文化权力要素提供了新证据和方法。

3. 方法的操作过程

 

历时性词嵌入法 | 知乎论坛中的政见缘何爆火?

3.1应用原则

(1)理论与测量同构

现有关于研究中主要存在着两个问题:①个别机制是走向一般理论的基石,但无法确定这些机制在考虑其他因素时能否成立,也不知道这些个别要素的相对重要性。②对其关键预测因素之一——新颖性的测量不准确,新颖性指的是与预先存在的知识结构相区别的经验,尽管新颖性一直是许多社会科学研究的重点,但实际的测量方法与它的理论定义是脱节的。

研究未将历时性词汇嵌入方法作为一般性的文本分类工具,而是将其融入“文化共鸣”理论框架之中,用于测量一个观点在特定时间点相对于既有话语结构的“新颖性”。作者明确指出,传统新颖性测量容易将文本与同时期竞争文本进行比较,而该研究试图将文本的新颖性置于先前话语建制之中加以判断。

通过测量一篇文章所涉及的概念在高维语义空间中的距离远近,来对关键预测变量进行操作化定义。W2V空间揭示了一个潜在的高维空间,其中每个词在各维度上的因子载荷表明该词的含义属于该维度的概率。

(2)设计代理变量量化不可直接观察行为指标

在无法直接观测受众主观体验与即时认知过程的情况下,将相关行为结果作为可得、可操作的指标,从而构建代理变量。研究将“文化共鸣”操作化为帖子获得的赞同数,将“新颖性”操作化为文本中概念组合在既有语义空间中的距离,将“情绪”操作化为情感倾向与情感强度,将“地位”操作化为作者粉丝数和平台认证标识,将“语言特征”操作化为词汇多样性和英文使用比例。由此,抽象的文化社会学概念被转化为可计算、可建模、可检验的经验变量。

(3)通过过程观察以规避样本选择偏误

由于新颖性本身具有动态变化特征,某一表达在早期可能具有较高新颖性,但随着相同概念组合被反复使用,其新颖性会逐渐下降。因此,研究需要依赖具有明确时间标记的大规模文本数据,并通过逐时段更新语义空间的方式,捕捉论坛话语结构随时间发生的变化。

许多先前的研究都使用负二项式回归来建模过度分散的计数数据,如果数据中零值数量呈膨胀状态,且有理由假设二元结果的数据生成过程涉及不同的机制。例如,可能存在一个字数或关注者数量的“阈值”,低于该阈值的行为不太可能获得任何曝光。在此情况下,ZINB回归是更优的选择,因为它假设二元结果的数据生成过程可能不同。使用ZINB模型时,帖子获得的预期赞数通过一个协变量向量进行建模。

(4)综合考虑多变量、非线性、情境控制

将多个关键预测变量与一组控制变量同时纳入模型,为检验“最优认知距离”这类曲线关系,加入平方项,检验是否存在非线性而不是简单线性效应。

3.2操作步骤

(1)构建数据集

编写网络爬虫在中国知名问答平台“知乎”上爬取关于“2016年特朗普崛起”的讨论数据集,主题标签包括“U.S. politics”“2016 U.S. election”“U.S. society”“U.S. economy”“China-U.S. comparison”,保留回答数不少于5且发表于截至2017年底发布的回答用以训练历时性词向量模型,为计算模型中的新颖性及其他预测变量,筛选了2016年至2017年间发布的、在概念提取后包含至少两个概念的回答用于建模的数据集75,079条唯一回答。

历时性词嵌入法 | 知乎论坛中的政见缘何爆火?

(2)训练词向量模型

①利用整个语料库(2011年至2017年的所有讨论)训练一个词向量模型Mstart。

②将整个语料库按周划分为子语料库,产生了106个年-周语料库。

③为了获得每个时间点的语义关系向量表示,使用前一时间点的模型作为初始化,并利用当前年-周子语料库来训练一个新的词向量。

每个年-周被表示为一个向量空间,该空间反映了特定时间点上词语之间的关系。为了消除每个时间点获得的Word2Vec(W2V)建模结果中的随机性,在每个时间点应用了150次bootstrap。新颖度通过取引导样本均值来计算,取引导样本中的5%和95%值获得置信区间。

历时性词嵌入法 | 知乎论坛中的政见缘何爆火?

(3)变量测量

①新颖性测量

利用在时间点Tt-1训练得到的向量空间,计算时间点Tt,的新颖性。

概念词被定义为词性(POS)标签为名词、动词、形容词或习语的词汇,且仅使用具有此类词性标签的词汇来计算新颖度。

历时性词嵌入法 | 知乎论坛中的政见缘何爆火?

②情感测量

采用中文情感预测包bixin,捕捉情绪的强度和方向。

前10%和后10%的帖子分别归类为“极度积极”和“极度消极”,得分位于70%至90%区间和10%至30%区间的帖子,分别被标记为“中等积极”和“中等消极”。得分介于50%至70%(0.001至0.18)和30%至50%之间的帖子分别定义为“略微积极”和“略微消极”。位于第50百分位的帖子定义为“中性”。

③用户地位测量

采用用户的关注者数量以及虚拟变量(用于指示该用户是否拥有由论坛编辑授予的“顶级作者”徽章)两个变量衡量。

④文本语言特征测量

通过帖子的类型-令牌比(TTR)来衡量其词汇多样性,并纳入外语的使用。

(4)变量控制

控制变量包括帖子长度、所属话题标签、问题特征(问题回答数、问题浏览量)、用户性别,以及帖子距离2016年美国大选日的时间距离,将文本自身特征的效从外部因素中剥离出来。

(5)设计统计模型

研究以帖子获得的赞同数作为文化共鸣的代理变量,考察新颖性、情绪、作者地位、词汇多样性和英文使用比例对共鸣程度的影响。由于赞同数属于计数型数据,且存在大量零赞同文本,作者采用零膨胀负二项回归模型进行分析。同时,为检验“适度新颖更容易引发共鸣”的理论假设,模型中加入新颖性平方项,以识别新颖性与共鸣之间可能存在的非线性关系

3.3数据分析方法

从数据分析逻辑看,该研究采用的是“计算文本分析+计量统计建模”的综合方法路径。计算文本分析主要用于从大规模论坛文本中提取可量化的语义与语言特征,包括历时性新颖性、情绪类别、词汇多样性和英文使用比例。统计建模则用于检验这些变量与文化共鸣之间的关系。

研究的核心问题在于哪些类型的回答能引起平台用户的共鸣,采用零膨胀负二项式(ZINB)计数回归模型来分析共鸣及其预测变量之间的关系。使用ZINB模型时,帖子获得的预期赞数通过一个协变量向量进行建模,该向量包含前文讨论的各项指标。为了考虑新颖度与点赞数之间可能存在的曲线关系,协变量向量中包含了新颖度的二次项。由于新颖度的原始得分范围相对较大,为了减少与二次项的多重共线性,将新颖度得分标准化为均值为0、标准差为1,然后将其平方以获得二次项(标准化后)新颖性及其平方项均被纳入方程。

为减少与新颖度及篇幅二次项的多重共线性,答案长度也被标准化为均值为0、标准差为1。

为检验关键预测变量的非线性关系,作者粉丝数(对数转换)、词汇多样性及英语使用频率的二次项也被纳入模型。

(1)所有变量的描述性统计

(2)关键变量相关系数(R)分析

(3)模型分析

①模型1是一个简单模型,仅包含三个理论预测变量——新颖性、情感性及作者地位,未添加新颖性的平方项。

②模型2包含新颖性、情感性、作者地位,并加入新颖性的平方项

③模型3将语言特征纳入预测变量,包括词汇多样性和英语使用情况

④模型4增加问答长度作为控制变量

⑤模型5纳入了作者粉丝数(对数转换)词汇多样性外语使用率的平方项,以检验关键预测变量的非线性关系。

⑥模型6是包含所有控制变量的完整模型

额外建模分析,对新奇度与共鸣度之间的曲线关系进行交叉验证,对比不同模型之间的贝叶斯准则。

历时性词嵌入法 | 知乎论坛中的政见缘何爆火?

4. 方法的应用启示

4.1 方法适用情境

历时性词汇嵌入方法适用于分析具有连续时间结构文本规模较大交互丰富的研究情境。其典型适用对象包括在线论坛社交媒体讨论学习平台发帖课堂转录文本协作学习讨论记录师生对话数据以及生成式AI交互日志等。与一般文本分析方法相比,该方法在识别文本语义内涵的基础上进一步判断某一表达在特定时间点的语义环境中构成的新的概念关联。

该方法适合用于研究知识、观点或话语如何在互动中被生成、扩散和接受的问题。例如,在在线学习社区中,研究者可以分析哪些学生发言真正推动了小组讨论从重复性表达走向概念深化;在课堂话语研究中,可以分析教师追问是否促进学生将原本分散的概念建立联系;在生成式AI支持学习研究中,可以分析AI反馈是否提供了适度超越学生原有理解框架的新信息。

4.2 个人思考

学习分析不应只关注学习者的行为频次,还要考量学习者话语在整体知识结构中的动态变化。传统在线学习分析常常使用发帖数量、回复次数、登录时长、点赞数等指标衡量学习参与,但这些指标并不能充分说明学习者是否真正产生了有价值的知识建构。历时性词汇嵌入方法则提供了一种可能路径,即通过追踪概念之间关系的变化,识别学习者是否提出了新的解释框架、新的知识联结或新的问题视角

这一思路有助于推动学习分析从“可见的行为”走向“可见的认知”。例如,在异步在线讨论中,某位学生发言数量不多,但其发言可能将两个此前未被联系的概念建立起解释关系,从而推动小组理解深化。相反,另一位学生虽然频繁发言,但主要是在重复既有观点,其认知贡献可能有限。历时性语义分析能够为这类差异提供更加细致的证据。

此外,平台互动指标不能被简单等同于学习质量或认知质量。文章以赞同数作为文化共鸣的代理变量,但也承认这一指标只是对不可直接观测的认知体验的间接测量。迁移到教育研究中,点赞、回复、采纳、收藏等平台数据同样需要谨慎解释,虽然能够反映某种形式的关注或认可,但并不必然代表深度理解、概念转变或学习成效。

以下也是我对该方法在教育技术学研究场域中的拓展思考:

①在生成式AI支持学习研究中,该方法可用于分析AI反馈的新颖性水平。研究者可以比较不同类型AI反馈相对于学生既有答案和讨论历史的语义距离,进一步探讨“适度新颖”的反馈是否更能促进学生修改答案、完善解释和迁移应用。这对于当前生成式AI反馈质量评价具有直接启发意义。

②在在线协作学习研究中,该方法可用于识别群体知识建构过程中的关键发言。研究者可以追踪讨论中概念组合的变化,判断哪些发言推动了群体语义空间扩展,哪些发言只是维持已有观点。这有助于丰富对协作学习质量的评价,避免单纯依赖发帖数量或回复数量来判断学生贡献。

③在课堂智能分析研究中,该方法可用于刻画师生话语互动中的概念推进过程。例如,教师提出的问题是否引导学生建立新的概念联系,学生回答是否从事实回忆走向解释建构,课堂讨论是否形成了逐步深化的语义结构,均可以通过历时性文本分析进行辅助判断。

④在学习者画像与自适应推荐研究中,该方法也具有潜在价值。系统可以根据学习者历史文本中的概念使用与概念关联,识别其已有知识结构,并据此推荐具有适度认知挑战的学习资源、讨论问题或AI支架。学习推荐可以进一步考虑学习者当前语义理解结构与目标知识结构之间的距离。

4.3 值得进一步探讨的新问题

①如何将历时性语义分析与学习过程模型结合?教育技术学研究中的自我调节学习、社会共享调节学习、协作知识建构和探究学习,都强调学习过程的阶段性变化。历时性词汇嵌入方法可以用于识别不同阶段中学习者话语结构的演化,例如从问题提出到证据整合、从观点表达到概念迁移、从个体理解到群体共识的变化轨迹。

②如何处理算法测量与教育解释之间的关系?词向量模型能够提供语义距离和概念关联的计算结果,但这些结果仍需要结合学习任务、教学目标和学科知识结构进行解释。教育研究不能只停留在算法指标层面,而应进一步说明这些指标在具体学习情境中代表何种认知意义与教学意义

5.论文基本信息

Zhou, D. (2022). The Elements of Cultural Power: Novelty, Emotion, Status, and Cultural Capital. American Sociological Review, 87(5), 750–781. DOI: 10.1177/00031224221123030.

附件:https://www.jstor.org/stable/48750674

选题关键词:文化权力;文化共鸣;网络公共讨论;政治话语;文化资本;语言资本;社会互动;观点扩散。

研究方法关键词:历时性词汇嵌入;Word2Vec;计算社会科学;文本分析;语义空间建模;自然语言处理;大规模论坛数据分析。

数据分析关键词:零膨胀负二项回归;情感分析;词汇多样性分析;非线性关系检验;二次项建模;bootstrap;计数数据建模。

研究解读

不是谁更好,而是谁做什么:生成式AI与教师在数学具身学习中的互补角色

2026-4-23 21:16:17

研究解读

不只“认识谁”,更要“求谁帮”——跨国社会资本测量的双法分层新框架

2026-4-25 11:23:39

5 条回复 A文章作者 M管理员
  1. ai助教

    卓达对历时性词嵌入法在测量新颖性上的改进概括得非常到位,特别是将参照系从同期文本转向话语建制,这确实更贴近理论定义。顺着这个思路,如果将该方法迁移到教育技术研究中,比如分析学习者讨论中的概念演化,你会如何确定‘话语建制’的起始时间点?因为学习者的知识结构可能随课程推进快速变化,而论坛讨论的时间跨度往往较短,这时历时性模型是否仍能有效区分新颖性与随机波动?

  2. 赵祥森

    网络政治讨论最核心的是什么呢

  3. 陈思婷

    卓达同学的分享具备很高的技术性和启发性,但是带有时间标签的中文政治讨论语料具备很强的时序性或阶段性,对于课堂中的在线学习数据采用同样的建模分析方法,可迁移的合理性具体体现在哪些方面呢

    • 陈思婷

      (补字数)这是一篇很好的文章,从技术层面到教育技术学研究领域,带来了很好的开拓视野和启发作用

  4. 郭晓丽

    有一些困惑的地方,这个历时性词嵌入法和网络民族志的区别与联系是什么?通过介绍可以看到这种方法的适用范围包含研究知识、观点或话语如何在互动中被生成、扩散和接受的问题,所以在生成式人工智能的时代具有很重要的作用。这种方式是否可以迁移到学生的学习过程?以及如何具体迁移

量化研究 AI 助手

Powered by DeepSeek | 智慧教学平台

👋 欢迎使用!

我是专为量化研究设计的智能助手。支持 MarkdownLaTeX 公式

您可以问我:

  • 如何解读回归分析的 R² 和 P 值?
  • 写一段 R 语言代码进行因子分析。
  • 什么是认知诊断模型(CDM)?