Fundamental Research | 甘青地区人群的遗传和语言地势

发布者:张春艳发布时间:2026-04-09浏览次数:10


正文

1、导读

在人类历史研究中,基因与语言的协同演化(Gene-language co-evolution)被视为理解人群迁徙与文化互动的重要理论框架。然而,在多语言高度接触与混合的区域,这种对应关系往往呈现出复杂甚至非对称的特征。

甘肃-青海(甘青)地区位于欧亚大陆交流的重要通道,是古代丝绸之路的关键节点之一。该区域长期以来汇聚了汉语、藏缅语、蒙古语、突厥语等多语系人群,形成了高度复杂的语言接触与人群互动格局。特别是该地区孕育了五屯话这样的“混合语言(Mixed language)”以及临夏、夏河等地的语言有“语言混合(Mixing language)”的倾向。这些语言的核心词汇是汉语,但是句法特征却发生了深刻的变化。然而,针对甘肃-青海这一“语言区域”的基因语言整合研究仍相对缺乏。

近日,复旦大学分子考古实验室文少卿副教授团队联合德国美因茨约翰内斯古腾堡大学徐丹教授团队和复旦大学生命科学学院王传超教授团队在综合性英文学术期刊Fundamental Research发表了题为“Genetic and linguistic landscapes of Gansu-Qinghai populations”的研究论文。研究团队通过对甘青地区四个特殊语言-人群(临夏、夏河、五屯、甘沟)的系统采样与分析,结合基因组数据与语言学证据,深入探讨了该区域人群遗传结构与语言演化之间的关系。


研究内容

1. 研究材料与方法

本研究以甘肃临夏、夏河,青海甘沟、五屯四个典型语言混合区域为研究对象,新采集153例汉族、藏族、回族、土族人群高密度基因组芯片数据。研究整合已发表现代人和古人基因组数据,采用基于等位基因频率、共享单倍型块、共享IBD片段等群体遗传学方法,并联合语言类型学证据以对比基因与语言的共演化关联。


2. 核心结论

1)甘青地区人群多源混合的复杂遗传图景

研究发现,甘青地区新采样的四地人群普遍呈现出复杂的遗传异质性。主成分分析(PCA)结果显示,甘青地区人群存在向欧亚大陆中西部人群的遗传偏移,特别地,五屯地区的多个族群(包括汉族、藏族与土族)在遗传结构上均表现出向青藏高原人群的明显偏移(图1)。

整体而言,该区域人群主要由三个祖先成分构成:占主导地位的黄河流域相关祖先成分(YR-related)、普遍存在的西部欧亚草原相关祖先成分,以及在局部人群中富集的青藏高原相关祖先成分(TP-related)(图2)。此外,PCA与遗传聚类显示:甘青汉族、藏族、土族、回族均介于东亚低地人群与青藏高原人群之间,呈现连续过渡的遗传梯度。有趣的是,新采样的甘沟、五屯等地的藏族人群,在遗传上相较于青藏高原核心区的藏族,表现出更多与低地汉族人群共享的遗传漂变;而临夏的回族、五屯的土族等也展现出独特的欧亚大陆东西方成分混合比例。这表明同一生态走廊内,不同族群经历了极其复杂的基因交流。


1A)欧亚大陆人群的主成分分析;

B)成对qpWave分析揭示的不同人群间的遗传关系;

C)无监督ADMIXTURE聚类分析


2 遗传祖源模拟分析结果


2)语言接触下基因与语言的多重演化模式

研究最重要的发现之一在于揭示了语言与基因之间并非始终同步演化的关系。通过对比不同区域的新采样汉族群体,研究发现甘青地区不同汉族群体呈现出明显差异:五屯话在语言学上被认为是“混合语言”(核心词汇为汉语,但在句法上深受安多藏语等语言的影响)。基因组数据印证了这一深层变化:五屯汉族亚群(Han_Wutun2)在遗传上显著偏向青藏高原人群,其青藏高原相关祖先成分占比高达 44.9%;而临夏、夏河及甘沟等地的汉族人群虽然在语言上也表现出“语言混合”的特征(例如句法上许多特征开始和非汉语趋同),但其遗传组成仍与典型汉族人群保持一致。这一结果表明,语言的变化可以通过文化传播在较短时间内实现,并不必然依赖大规模的人口迁移或基因流动(图3)。

在此之外,研究结合区域特征还进一步探讨了非汉族群的演化规律。研究观察到,东乡、保安及撒拉等族群虽普遍携带较高比例的欧亚西部草原祖先成分,但语言命运各异。在历史演进中,东乡族、保安族发生了向蒙古语的语言替换,而同具西部血统的撒拉族却成功保留了自己祖先群体的语言-突厥语。这展现了甘青地区同化与保留并存的文化—基因互动的面貌。


3 A)不同语系人群语言关系的参考示意图;

B)基于 qpAdm 推断的不同语系人群的祖先成分构成


3)东西方基因交流广泛存在

研究进一步表明,甘青地区广泛存在东西方基因交流。基于ALDER, MultiWaver 的时序推断,结果显示该区域人群均共享了一定比例的西部欧亚相关祖先成分(约 5.5%-10.7%),其基因交流时间主要发生在距今 29.8-40.3 代之前(约合唐宋时期),以及随后的元代。这一时期恰逢丝绸之路的繁荣与唐宋之际的社会动荡,以及元代大规模的军事调遣与行政移民。这些宏大的历史进程为甘青地区长期的局部互动、通婚与基因交流提供了结构性条件,也为我们如今看到的复杂基因与语言图景奠定了基础。


研究意义

本研究首次在甘青这一复杂的语言接触区,实现了高密度基因组新数据与语言学证据的系统整合分析,并由此提出了一系列重要认识。研究表明,基因与语言之间并不存在简单的一一对应关系:一方面,存在“基因相对稳定而语言发生变化”的现象;另一方面,也可以观察到基因与语言同步演化的特殊案例。与此同时,甘青语言区域为理解文化传播机制提供了关键窗口,显示语言能够通过社会互动在较短时间内实现传播与重构,而并不总是依赖人口迁移。进一步而言,甘青地区作为欧亚交流的重要遗传与文化交汇区,其人群结构深刻反映了丝绸之路长期作用下的历史进程,记录了多阶段、多方向的人群互动与融合。总体来看,本研究构建了一个“遗传—语言协同分析框架”,为理解欧亚大陆人群互动、语言演化及文化传播机制提供了新的研究视角与方法。



原文作者

复旦大学生命科学学院博士生陈浩东、黄煌臻,复旦大学科技考古研究院硕士生赵博瑄、厦门大学生命科学学院毕业生蒋怡灵为共同第一作者;德国美因茨约翰内斯古腾堡大学英语与语言学系语言类型学专业徐丹教授、复旦大学生命科学学院王传超教授、复旦大学科技考古研究院文少卿副教授为共同通讯作者。

引用信息

https://doi.org/10.1016/j.fmre.2026.04.001

致谢

本研究获得了欧洲研究理事会(ERC-2019-ADG, 883700-TRAM)、中国历史研究院“兰台青年学者计划”项目(2022LTON602)、国家自然科学基金(T242501432270667)、福建省自然科学基金(2023J06013)及国家重点研发计划(2023YFC3303701-02, 2024YFC3306701)等项目的资助与支持。感谢为本研究提供宝贵语言学证据与分析建议的国内外语言学者。