
用遗传学数据重构人类进化谱系
2024年3月26日
中国13个民族7个Y-STR基因座遗传关系的研究
2024年3月26日南岛语族遗传溯源:闽台交融的 DNA 证据
唐嘉欣 1 王传超 2
(1. 厦门大学社会与人类学院研究生;2. 厦门大学人类学研究所教授 )
南岛语族,顾名思义就是说南岛语的民族族群。南岛语族最初是19 世纪以来西方殖民者在赤道以南广阔的太平洋三大群岛上发现的语言相通或相似的海洋土著,从语言学角度将这群海洋民族称为“南岛语族”。南岛语族现有1000 至1200 种语言,覆盖近4亿多人口,是世界民族志上以语言共同体识别的大族群。这些族群主要分布在中国台湾,东南亚,美拉尼西亚、密克罗尼西亚和波利尼西亚三大群岛,分布范围东起复活节岛,西到非洲的马达加斯加岛a。
对于南岛语族的起源与扩散,国内外考古学相关领域的学者如林惠祥、张光直、贝尔伍德等都已经展开了近一个多世纪的、富有成果的研究b,学界基本认可南岛语族祖先从大陆华南地区到台湾到大洋洲的迁徙扩张史c。然而语言学界对南岛语的起源地却争论不休,在近一个世纪的学术史上,波利尼西亚说、东南亚群岛说、中南半岛说,甚至美洲起源说等各种学说都得以提出并初步论证,但始终众说纷纭,未能找到这个世界上分布最广的海洋族群的真正的文化发源地。
近年来,随着遗传学技术的发展,DNA 开始广泛应用于南岛语族群研究中,基本上梳理清楚了南岛语族起源与扩散过程中的一系列亟待解决的学术问题。由于DNA 数据的复杂性,在用于解读史前人群历史时可能存在误读,不是所有的结果和结论都经得住检验,也需要我们进一步讨论和辨析。
生化及免疫学标记
群体遗传学追溯族群起源最早应用的是血清免疫学分型标记, 比如使用ABO、MNSs、Lewis、Rhesus、Kidd、Kell、Duffy 和Diego等血型标记,研究者们假设人群间的等位基因频率越接近,那么群体亲缘关系就越相近。从1939 年开始,有多篇论文报道了台湾南岛语人群的血型标记相关研究d,比如卡瓦利- 斯福扎(Luigi Luca Cavalli-Sforza)团队在1985年对台湾Toroko人群进行血型标记的检测和分析,发现Toroko人群与华南、泰国、越南、菲律宾和台湾人聚类在一起,显示出较近的亲缘关系,而与马来人、婆罗洲人、波利尼西亚人、密克罗尼西亚人和美拉尼西亚人的关系较远e。
上世纪末,台湾马偕医院的林妈利等对台湾多个少数民族做了取样调查和人类白细胞抗原(humanleukocyte antigen, HLA)分型分析,认为台湾少数民族是世界上最纯的族群,可能自12000 多年前就与其他族群隔绝而在台湾岛内独立发展形成。林妈利等进一步提出台湾闽南和客家人中85% 有台湾少数民族的血统,而90% 以上的台湾闽南和客家人有华南百越族群的血统,并不是纯北方汉人的后代,反而与东南亚有很近的亲缘关系f。通过有限的HLA 位点来判断群体亲缘关系有较大问题,首先HLA 受气候、环境和病原菌影响较大,其次HLA 无法判断人群起源地和起源迁徙时间,也无法推测人群混合基因流的方向性。在仅有少量HLA 位点的情况下,我们也无法准确判定人群是否“纯粹”以及与其他人群的远近关系等。林妈利提出的“12000 多年”不是通过遗传数据计算出来的,而是个人的主观推测。台湾学者陈叔倬等撰文对林妈利的检测和数据统计方法、族群认定和归类标准等提出质疑,认为林妈利算出的85% 和90% 等数字是没有科学依据的。g
台湾南岛语族起源于华南
遗传学上追溯族群起源和迁徙主要依靠DNA。人类DNA 主要分为三类,包括常染色体、性染色体(XY 染色体)和线粒体。常染色体是人类整个基因组中最大的一部分,包括来自父母双方的22 对常染色体;性染色体中的Y 染色体只能由父亲到儿子单向传递,可以很好地反映父系的历史;线粒体DNA 是由母系传递的,虽也有极个别的线粒体杂合现象,但总体说来线粒体是反映来自母系的历史。正是由于常染色体、Y 染色体和线粒体不同的遗传方式,我们可以用这三种类型的DNA 组合起来推断祖先的历史。研究者们根据基因突变构建了人类Y 染色体的谱系树,把Y 染色体分为20 种主干单倍群,编号从A 到T,其中O-M175,C-M130,D-M174 和N-M231 是东亚四个主要单倍群,约占到东亚全部男性的93%h。同样地,研究者们定义了线粒体单倍型和单倍群,通过世界范围内线粒体单倍群的分布来描绘人类母系祖先起源和迁徙的路线。在东亚北方和南方的 mtDNA 单倍群分布非常不同,东亚北方主要由A、C、D4、D5、G、M8、M9、N9、Z 支系组成,而南方主要由B4、B5a、F、M7和R9 等单倍群组成i。
2008 年,李辉等对30 个侗台族群、23 个印尼和越南的马来波利尼西亚语人群和11 个台湾少数民族的1509 个男性样本进行了Y 染色体SNP 和STR 分型。研究发现O1a-M119 是台湾南岛人群的主要Y 染色体单倍群,平均为77%,这一类型在侗台人群和马来人群中分别约占20.5% 和21.2%,远高于其他东亚人群。O1a-M119 广泛分布在东亚和东南亚人群之中,是侗台语人群和南岛语人群的主要父系类型之一,而且在各地汉族人群中也有一定的比例。通过邻接法构建了三个人群之间的Y 染色体单倍群O1a* 的网络结构图,侗台人群处于网络图的中心,分别与马来人群、台湾南岛人群直接或间接共享单倍型,而马来人群与台湾南岛语人群之间几乎没有共享单倍型。从O1a-M119 这一Y 染色体类型上来看,马来人群并非直接起源于台湾南岛人群,两者可能是分别独立起源于大陆的侗台人群。除O1a-M119 以外,台湾南岛语人群还较多地出现O3-M122 和O2a-M95 单倍群。O3-M122 是中国最常见的单倍群,遍及整个东亚和东南亚,占汉族50-60% 左右,比如汉族新石器时代三个祖先支系之一的O3a-M134 就在台湾南岛语人群马卡道族中占到13.5%,在排湾族中占到9.1%。O2a-M95 在华南少数民族、中南半岛及印度的蒙达语人群中分布较多,在台湾南岛语人群中主要是在阿美族、巴宰族、马卡道族、布农族和赛夏族中有发现,比例占到5.4%-17.6%。从STR 的遗传距离上来看,侗台语人群的O3-M122 和O2a-M95 单倍群也分别和南岛语人群和马来人群的关系更近,也支持南岛语人群和马来人群可能是分别独立起源于大陆的侗台人群 j。
从母系线粒体角度来看,Trejaut 等对台湾南岛语的9 个族群640 人进行线粒体DNA 的检测和分型,发现有85% 以上的线粒体DNA 类型属于B4,B5a, F1a, F3b, E 和M7 单倍群,除单倍群E 以外,其他类型都是在华南和东南亚常见的k。Shinoda 等对平埔族墓地的35 例古人牙齿进行线粒体DNA 检测和分型,发现其主要类型为F, B 和M7,与东亚南部人群相近l。王传超等对距今1500 到3200 年前的台湾汉本和公馆遗址46 具人骨成功进行了古DNA 提取和测序,发现其线粒体DNA 类型主要是E1a, B4a1a,F3b1 和F4b,这些类型也普遍出现在现代的台湾和东南亚人群中m。南岛语族与大陆最早的遗传联系可追溯到8000 多年前。距今8200 年的亮岛人1 号的线粒体DNA 为单倍群E1 的祖先类型,其突变介于单倍群E 和E1 之间。单倍群E 是东亚大陆常见的母系单倍群M9 的下游分支,M9 主要分布在青藏高原及周边地区,其分支E1 和E2 则广泛分布于台湾、东南亚岛屿地区和大洋洲地区的古今人群中。通过与台湾南岛语族及菲律宾、印度尼西亚人群进行比较,亮岛人1 号与台湾南岛语族群的单倍型变异位点最相近,而与印度尼西亚或菲律宾人群变异位点稍多些,直接支持南岛语族的大陆起源和出台湾说。距今7600 年的亮岛人2 号的线粒体属于单倍群R9,这一类型主要存在于现台湾的邵人、华南侗台和苗瑶语人群里面,进一步证实了包括台湾南岛语族在内的华南土著族群的同源一体n。
波利尼西亚人群与大陆东南族群的遗传联系
宿兵等分析了华南、东南亚、台湾、美拉尼西亚、密克罗尼西亚、波利尼西亚的36 个族群551 位男性的Y 染色体样本的突变类型,其中台湾南岛语族样本有58 个。研究发现台湾南岛人群的Y 染色体类型不存在于波利尼西亚人群中,在密克罗尼西亚人群中有且少量,说明Y 染色体不支持波利尼西亚人群起源于台湾o。然而,曾昭书等对9 个台湾南岛语人群的293 个男性样本进行Y 染色体STR 分型,发现阿美族、布农族和赛夏族与大洋洲族群有更近的遗传关系,也提示台湾不同的南岛族群对大洋洲人群的遗传贡献可能不同p。Mirabal 等对来自波利尼西亚群岛的萨摩亚和汤加的158 例男性样本的Y 染色体进行了分型,并与东亚大陆、台湾、东南亚岛屿、美拉尼西亚和波利尼西亚的人群进行了比较。研究发现,虽然萨摩亚和汤加的Y 染色体中有来自美拉尼西亚的单倍群C2a、S 和K3-P79,比例能占到23%–42%,但波利尼西亚群岛的大多数Y 染色体类型是与东亚有关的,特别是在东亚大陆人群中低频出现的O3a2c-P164 类型却在波利尼西亚人群和台湾阿美族里高频出现,说明波利尼西亚族群与阿美族之间存在遗传联系q。韦兰海等使用更多的Y 染色体SNP 位点更新了谱系树,发现之前的O3a2c-P164 属于新定义的O3a2b2-N6 单倍群,O3a2b2-N6(×F706) 单倍群来自中国北方或东亚东南沿海地区,其下游分支O3a2b2a2-F706(×B451)出现在中国大陆东部沿海地区,而南岛语人群特有的Y 染色体类型又属于O3a2b2a2-F706 的下游分支O3a2b2a2b-B451,台湾汉本和公馆遗址古人的父系Y 染色体类型也主要是O3a2b2-N6,以Y 染色体O3a2b2a2b-B451 为代表的南岛语人群与亚洲大陆东南族群之间具有遗传亲缘关系r。
全基因组精细解析南岛语族历史
1998 年,第一篇系统采用现代遗传标记研究中国人群遗传关系的文章发表在PNAS 上。这篇文章利用30 个微卫星标记分析了28 个中国人群的遗传结构,其中就包括阿美族、泰雅族、排湾族和雅美族这4 个台湾少数民族,研究发现南北中国人群之间存在遗传差异,多态性分析和系统聚类分析观察到台湾少数民族是与华南族群聚类在一起,而不是与澳大利亚和新几内亚土著人群聚类,表明台湾少数民族是与华南族群有着较近的遗传关系s。
2009 年,复旦大学金力院士和徐书华教授组织亚洲地区10 多个国家的90 余名研究人员组成“泛亚SNP 计划”团队,对亚洲地区73 个人群1928 例样本进行了基因芯片分型,每个样本检测了全基因组上的5 万多个SNP 突变位点,描绘了亚洲人群的精细遗传结构,发现亚洲人群遗传结构与地理分布及语言结构之间有着非常好的对应关系。来自台湾、印尼、菲律宾、马来西亚和远大洋州的南岛语人群在进化树上聚类在一起,显示出较近的遗传关系,但也能看到爪哇岛和巽他群岛上的南岛语人群与其他南岛语族有着遗传差异t。进化树分析并不能详细解析人群的混合过程。Lipson 等使用追踪祖先基因流的新方法MixMapper 重新分析了“泛亚SNP 计划”的 56 个人群的基因芯片分型数据,研究发现南岛语人群都跟台湾少数民族的遗传关系更近,东南亚岛屿西部的南岛语人群也带有当今南亚语系人群的遗传成分,作者推断要么南亚语人群曾经在东南亚岛屿上存在过,要么是南岛语人群曾迁徙到东南亚大陆,在那里混合了南亚语人群遗传成分,然后继续前往印度尼西亚西部u。Liu 等使用基因芯片对台湾43 名南岛语人群样本进行了检测和分析,这里面包括了泰雅族、布农族、鲁凯族、排湾族、阿美族、达悟族和马卡道族等,每样本有60 多万位点可用于分析。研究发现台湾南岛语族有着遗传亚结构,北部的泰雅族和中部的布农族聚类在一起,而南方的鲁凯族、排湾族和阿美族则不同,鲁凯族和排湾族聚类在一起,而阿美族则与达悟族和菲律宾的坎卡奈语(Kankanaey)和伊洛卡诺语(Ilocano)人群聚类。马卡道族则带有明显的汉族相关的遗传混合,大约有60% 左右的遗传成分来自闽南汉族。与北部的泰雅族相比,南部的阿美族和鲁凯族与东南亚岛屿和大洋洲的南岛语族有更近的遗传关系,而泰雅族则与华南地区的古代和现代族群有更近的关系v。
2010 年以来,随着古人类DNA 技术的发展成熟,与南岛语族有关的古人基因组不断发表。中科院古脊椎动物与古人类学研究所付巧妹团队通过分析距今8000-2000 年的福建奇和洞、昙石山、溪头村、台湾亮岛和锁港等遗址的古人基因组,厦门大学王传超团队通过分析距今1500-3200 年前台湾汉本和公馆遗址的古人全基因组,发现福建新石器时代古人、台湾新石器时代晚期至铁器时代人群和现今台湾南岛语人群有着遗传连续性,福建和台湾的古人和华南地区现代侗台语人群之间也有着较近的遗传关系,直接表明南岛语人群起源于大陆东南沿海地区w。Skoglund、Lipson、Posth 等连续发表了多篇大洋洲古代人群的基因组数据,发现大洋洲的瓦努阿图和汤加等地距今3100 到2300 年前的古人基因组与福建和台湾古人属于同一遗传谱系,没有发现与东南亚土著巴布亚人有关的遗传成分,巴布亚人群的相关血统是在距今2300 年前后到达瓦努阿图和汤加的x。通过以上遗传分析,我们发现远大洋洲人群的遗传结构发生了巨大变化,但作为外来的巴布亚语言并没有取代南岛语言,说明在南岛语到达远大洋洲之前,当地可能并没有成熟使用的语言系统,所以可能就很容易接受了南岛语并且一直沿用下来。
结语
南岛语族的起源问题一直是学术界关注的重点,语言学家从不同的语言材料与方法得出不同的结论,考古学家也通过对相关遗址的研究作证或提出了新的结论,但由于语言学和考古学在人群起源研究上的解析度有限,就需要遗传学通过具体的数据研究来提供支撑证据。遗传学的优势在于可以通过分析人群的遗传信息,特别是Y 染色体和线粒体DNA 的谱系相关遗传标记可以忠实记录人群分化事件的先后顺序,而古人DNA 可以跨越时间提供亲缘关系的直接证据,实证了南岛语族发源于大陆东南沿海地区,极大地丰富了我们关于南岛语族形成和发展历史的认识。
在南岛语族的起源上,目前还有许多未解决的问题,比如,长江中下游新石器时代的稻作农业人群与南岛语族的关系、南岛语族形成过程中有没有融合台湾岛内的狩猎采集人群等等。由于华南地区的土壤多呈酸性,多雨水,古人材料保存较差,现在还没有长江中下游地区的古人基因组发表,还没有数据可以直接和福建以及台湾的古人进行比较,故而现阶段南岛语族的发源地只能回溯到东南沿海地区。期待后续有更多华南和东南亚的古人基因组数据,进一步理清南岛语族的起源和扩散历史。
责任编辑:高 静