全球现有超过7000种语言,每种语言都有独特的语音、文字和句法规则。说“rose”的英语使用者和说“玫瑰”的中文使用者,是否拥有相同的语义表征?如果不同,翻译中究竟“丢失”了什么?长期以来,跨语言语义空间的共性与差异遵循何种组织原则,一直是认知科学中的核心问题。以往研究虽然分别揭示了跨语言语义的普遍性与文化差异性,但缺乏一个将两者统一解释的理论框架,尤其缺少与人脑神经认知机制的系统性关联。
近日,北京大学心理与认知科学学院毕彦超教授课题组,在《Nature Communications》在线发表题为“Semantic similarity across languages reflects neurocognitive dimensions shaped by climate”的研究论文。该研究综合运用大规模语言计算模型、跨语言行为评定和多语言功能磁共振成像数据,系统验证了一个基于神经认知的语义组织理论框架:人类语义表征不仅来自于语言,也来自于多模态感知;从而沿着一组具有神经生物学基础的核心语义维度组织——包括感觉运动维度(颜色、形状、味觉、嗅觉、声音、触觉、身体运动)和核心认知维度(时间、空间、数量、心智认知、情绪、社会)。而长期的生态环境条件——特别是气候——通过影响感官经验,独立地塑造了沿该结构的跨语言语义变异。
研究团队首先基于53种语言(涵盖10个语系)的大规模预训练词向量数据,将1016个概念投射到上述13个神经认知维度的锚点词上,构建各语言的语义表征并进行跨语言比较。结果表明,神经认知维度模型的跨语言相似度显著高于其他理论驱动模型,且显著超越随机维度匹配控制模型的分布上界。更进一步,这一从53种语言中提取的神经认知语义结构还能显著预测涵盖2681种语言的跨语言共词化网络拓扑关系,说明了该结构的广泛跨语言普适性。
在确立了神经认知语义结构的普遍性后,研究团队进一步利用表征相似性分析考察了跨语言语义变异的来源,系统比较了气候、地理、语言谱系和文化四类宏观环境变量的独立贡献。词嵌入数据的分析显示,在四类变量中,气候具有最强的独立解释效应。为验证计算模型的发现是否反映在人类认知行为中,研究团队招募来自8种语言(阿拉伯语、中文、英语、印地语、日语、韩语、俄语、西班牙语)的253名被试,对207个词汇在13个神经认知维度上进行主观评定。结果显示被试间语义结构具有高度共性,且气候再次表现为最强的独立预测因素,与计算模型的发现高度一致。
研究团队还利用一个已公开的多语言fMRI数据集(被试母语涵盖45种语言、12个语系)分析了母语加工时的脑区活动模式。结果发现,右侧前颞叶(r-ATL)是唯一能够编码13维神经认知语义空间中跨语言对齐关系的脑区,且气候距离能显著预测r-ATL中的神经活动模式差异,该效应在非语言任务中不存在,提示其特异于语言语义加工。
探索性分析进一步揭示了气候与语义空间的结构性关联:寒温带气候中概念倾向于在情绪和感觉运动维度(触觉、运动、形状、颜色)上具有更高语义强度,而热带气候中概念在社会认知(社会、空间、数量、认知)和嗅觉维度上关联更强,且这种维度差异模式在各类概念领域中普遍一致。
该研究揭示了语言语义表征的双重组织原则:生物进化塑造的神经认知维度结构为跨语言语义共性奠定了基础,而长期生态环境条件通过作用于感官经验通道灵活地塑造了沿该结构的系统性变异。这一发现为理解语言普遍性与相对性之争提供了统一的神经认知理论框架,也为在全球气候变化背景下理解人类认知与语言的生态适应性提供了一定启示。
毕彦超实验室已毕业博士生付泽为该研究第一作者,现为巴黎高等师范学院博后。毕彦超教授与实验室成员王晓莎为文章共同通讯作者。实验室硕士生褚宇茜,北京师范大学心理学部张唐晓雪,李雅雯参与了行为数据采集工作。该研究得到了国家自然科学基金和科技部科技创新2030-“脑科学与类脑研究”重大项目等项目的支持。
原文链接:https://www.nature.com/articles/s41467-026-70608-8
2026-05-14