本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:马煜曦
导语
“语言不仅是思想的载体,也见证社会的变迁。”——当北大研究团队把70年的《人民日报》交给AI“阅读”,那些被重复了亿万次的形容词突然显影成一道道群体烙印:年轻人倾向“朝气蓬勃”,老年人则倾向“固化保守”;女性形象则经历了50年代的“天真无邪”、70年代的“黑心无耻”、再到80年代被“正气凛然”的男性形象反超;在经济方面,78年的“改革开放”见证了从品质特征到发展差距的描述。每一次语言特征的转换,都伴随着时代的叩门声,而我们每个人,也成为时代与官方话语共同演化的见证者。
如果你对这一话题感兴趣,给你推荐我们最近刚刚发布的「AIX传播」主题读书会,读书会发起人之一南京大学教授王成军老师策划了计算叙事传播模块,会会特别讨论“文本作为方法”的研究技术如何帮助我们理解社会结构、文化变迁与集体认知,欢迎你的加入。
关键词:计算语言学,计算叙事传播,词嵌入
语言中的社会密码
当我们说“年轻就是好”或“有钱不一定是好事”时,我们不仅在表达个人观点,更在无意中透露着整个社会对不同群体的集体认知。语言就像一面镜子,既反映着社会现实,也在潜移默化中塑造着我们对世界的理解。
近期,北京大学人工智能研究院的研究团队于认知科学学会年会(CogSci 2025)上发表了一篇研究,运用大规模计算语言学方法,首次追踪了中国官方媒体70年来对社会群体表述的演变轨迹。这项研究分析了《人民日报》1950年至2019年的200万篇文章,揭示了一个令人惊讶的发现:在剧烈的社会变革中,某些群体描述模式保持着惊人的稳定性,而另一些则发生了阶段性的反转。
用AI解读语言中的偏见密码
研究团队采用了一种名为“词嵌入”的人工智能技术,这种方法能够将文本中的词汇转化为数学向量,从而量化分析词汇之间的语义关联。简单来说,就是让计算机“学会”理解词汇的含义和它们之间的关系。
具体而言,研究者选择了五个核心社会维度进行分析:性别(男性vs女性)、民族(汉族vs少数民族)、年龄(年轻vs年老)、经济地位(富有vs贫穷)、体型(瘦vs胖)。他们基于徐盱等学者[1]此前建立的中文词汇情感数据库,提取了465个与个性和品格相关的特质词汇。这个数据库包含了11310个简体中文词汇的情感倾向评分,采用7分制量表,范围从-3(极端负面)到+3(极端正面),0为中性。
研究团队通过计算不同社会群体的多个代称词汇(比如女性群体包括“女性”、“姑娘”、“妻子”等尽可能详尽的标签)与465个特质词汇在语义空间中的关联强度,然后结合这些特质词汇的情感倾向分数,得出每个群体的综合情感倾向值,如表1所示。正值表示该群体更多地与积极特质关联,负值则表示更多地与消极特质关联,数值的绝对值越大,倾向性越强烈。例如,如果“年轻人”这一群体在某个时期的情感倾向值为1.37,意味着在官方话语中,年轻人总体上与积极特质的关联度较高;而“老年人”的情感倾向值为-1.44,则表明老年人更多地与负面特质相关联。
为确保历史分析的准确性,研究团队还使用《汉语大词典》验证了这些特质词汇在不同历史时期含义的稳定性,确保现代的情感评分能够适用于历史文本分析。
表1:中国不同社会群体在官方话语中横跨70年的整体表征(1950-2019)。
结构性差异与身份表征的阶段性变化
持续存在的描述差异
研究发现,某些群体之间的语言表征呈现出令人震惊的稳定性。在长达70年的时间跨度内,尽管经历了“文化大革命”、改革开放等重大历史变革,在年龄、体型、民族三组群体对比在官方话语中始终保持着固定的描述差异:
年龄维度的描述差异最为稳定。年轻群体持续被赋予积极特质,平均情感倾向值为1.37,常见描述包括“优秀”、“刻苦”、“朝气蓬勃”。相反,老年群体的平均情感倾向值为-1.44,频繁与“痴呆”、“麻木”、“僵硬”等负面词汇关联。两者之间的情感倾向差距高达2.81,且这一差距在各个历史时期都保持稳定。
体型偏见的描述差异也较为持续。瘦的群体情感倾向值为1.41,被描述为“骁勇”、“坚毅”、“端庄”;而胖的群体情感倾向值为-1.40,常与“不良”、“恐怖”、“愚蠢”等词汇关联。
民族认知呈现以积极认知为主、相对类型化的模式。少数民族群体的情感倾向值高达1.43,但仔细分析发现,这种“积极”表述实际上暗含着简化认知——“纯朴”、“淳朴”、“豪迈”等描述将少数民族呈现出较为单一、聚焦传统品质的特征描写。
图2:中国社会群体表征的时间演变(1950-2019)。(a)平均情感倾向分数显示跨年代的持续模式,年轻人(相对于老年人)、少数民族(相对于汉族)和瘦者(相对于胖者)群体始终具有更高的情感倾向值。(b)平均情感倾向分数显示性别和经济地位群体的剧烈变化和逆转,包括1970年代的性别情感倾向逆转和1978年后贫富动态的转变。
性别与阶级的身份表征变化
与上述稳定模式形成鲜明对比的是,性别和经济地位的群体表述经历了剧烈的转换。
女性形象显著的阶段性变化最为引人注目。1950-60年代,女性群体情感倾向值高达1.66-1.70,被描述为“活泼”、“恬静”、“天真无邪”。然而到了1970年代,这一数值骤降至-0.57,女性开始与“黑心”、“无耻”等极端负面词汇关联。研究团队认为,这一转变与“文化大革命”期间对传统性别角色的激进重构有直接关系。
有趣的是,1980年代后女性形象开始回升(情感倾向值1.05),并在1990年代达到新的峰值(1.32)。但到了2010年代,出现了阶段性的反转现象:男性情感倾向值(1.08)首次(除了1970s这一特殊时期外)超越女性(0.66),男性开始被更多地与“大义”、“正气凛然”等正面品质关联。
经济地位认知的转换同样反映与不同时期政策导向和社会发展阶段相呼应的描述变化。富有群体在整个70年间都保持着负面倾向(-1.21至-1.69)和批评性词汇共同出现,被描述为“官僚”、“独裁”、“贪得无厌”,这种负面认知即使在市场经济改革后依然持续。相反,贫穷群体经历了从强调品质特征逐步转向强调发展差距的描述的转换,转折点恰好对应1978年改革开放政策的实施。
历史事件的语言印记
通过年度粒度的精细分析,研究团队发现了历史事件对语言表述的直接冲击。“文化大革命”期间(1966-1976),不同年份之间的语义关联性大幅下降(如图3所示,热力图显示为蓝色),形成了一个明显的"语义断裂带"。这表明重大历史阶段对话语结构产生了明显影响。
图3:揭示社会表征时间动态的年度相关性矩阵(1950-2019)。每个热力图显示了不同年份间特质关联的相关系数(红色:强正相关;蓝色:较弱相关;范围:0到1.0)。值得注意的观察包括:(i)对角线附近显示强年际稳定性(相关系数大于0.8);(ii)1966-1976年期间出现明显的低相关性带状区域(相关系数小于0.4),在“年轻人”和“少数民族”矩阵中尤为明显;(iii)这一时期各群体受到的影响程度不同,“女性”和“贫穷”群体显示出相对较高的稳定性。由于同一社会类别下的配对群体表现出相似的相关性模式,我们展示每个类别的一个代表性图表。
严格的统计分析显示,“文化大革命”开始后,“贫穷”群体的积极关联度显著提升,而“女性”和“年轻”群体则相对更多与带负面评价的词汇共同出现。这种快速变化证明了特定历史背景因素对描述模式的阶段性影响。
重新审视语言与权力的关系
在本研究的预料分析中观察到的语言共现模式,发现了官方话语中语言如何反映社会结构特征。更重要的是,它证明了不同维度的描述倾向展现不同的稳定性——某些偏见(如年龄歧视、体型偏见)似乎具有跨文化的顽固性,而另一些(如性别角色、阶级认知)则更容易受到不同历史阶段的影响。
与西方研究的对比分析揭示了文化差异的复杂性。例如,美国媒体对少数族裔普遍持负面态度,而中国官方媒体采用一种以突出特定传统品质的正面化描述模式,与主流叙事框架相呼应。
研究也提醒我们关注语言表述的深层含义。语言上的“积极”描述可能掩盖着更微妙的评价倾向,如对女性的“天真无邪”描述实际上强化了性别描述模式,对少数民族的“纯朴”描述则暗含着差异化叙事框架。
语言研究的新视野
这项研究为理解社会变迁提供了全新的视角。语言不仅是社会现实的被动反映,更是权力关系的能动构建者。通过追踪词汇语义的历史演变,我们能够以前所未有的精度观察社会观念的形成、固化和转换过程。
未来的研究方向包括:扩展到更多样化的文本来源,开发历史化的情感分析工具,以及探索不同社会制度下群体表述的比较模式。随着人工智能技术的不断进步,我们将能够更深入地理解语言、文化和社会变迁之间的复杂互动关系。
这项研究最终告诉我们:在关注显性的社会不平等之外,我们同样需要警惕隐藏在日常语言中的微妙偏见。只有真正理解了语言如何塑造认知,我们才能更好地构建一个更加公平和包容的社会。
参考资料:
1.Xu,X.,Li,J.,&Chen,H.(2022).Valence and arousal ratings for 11,310 simplified Chinese words.Behavior Research Methods,54(1),26–41.
相关推荐
网暴事件频发,女性身体为何成为“话语爆炸的中心”?
当声讨田园女权成为潮流:反女权话语背后的男性焦虑
从女神到妇女:三八节的品牌营销话语观察
“进化”还是“演化”?关键在于尺度
百度人民日报共建AI媒体实验室 未来对其他媒体开放
人类的演化已经走到了尽头?
对劳动者的话语规训,从来都不曾少过
第二波疫情提前来袭,绝大多数人处于群体免疫保护下
人类仍在演化吗?
中国最关注的东南亚/印度互联网企业评选结果与顶尖投资机构深度剖析
网址: AI剖析200万篇人民日报:中国70年官方话语中的群体印象演化 http://m.xishuta.com/newsview140426.html