周六晚上Geography版版聚 + 饭局,得知好友刚刚去复旦大学现代人类学教育部重点实验室抽了血。很早就在Geography版听说过这个实验室在《Science》、《Nature》上狂飙文章。大老板叫金力,生命科学院院长,大概学而优则仕吧,已经升副校长了。这个实验室做的东西很有趣——根据遗传信息研究各个族群的亲缘关系,以此绘制人类迁徙地图。
这事儿我当然很感兴趣,了解自己的祖先是我的夙愿。我家那模糊不清的家谱只记载到明末,家族某人为官不慎,先人为避满门抄斩之灾,埋名改姓,从贵州桐梓县迁移到重庆璧山县,开驿馆商铺,行仗义豪侠之类之类。再之前?不知道——没准儿是某大奸大雄的之后?于是要了他们实验室某人的联系方式,周日和两个朋友一起跑过去抽血。
现代人类学实验室的位置(地图中的绿色箭头)相当低调:遗传学楼北侧、本北高速旁边的那堆实验田后的一排小平房,实验室是1号楼。正门没开,只能走边门。穿过一个长长的两侧都是冰箱的走廊。帅帅的polyhedron同学跑出来迎接。
抽血之前需要先签一份知情同意书。点下图有清晰版供细看:
除了对安全性、隐私之类的承诺之外,知情同意书提到了这项研究可能为被测试者提供的信息:
……每个人的细胞内,都有一套遗传密码,不只控制着每个人的生命活动,还记录着祖先经历的历史。从DNA中,我们可以分析得出各个民族的来龙去脉,解开许多历史之谜,或者是从未想到过的您的族群和家族的传奇来历。这对历史学、民族学、人类遗传学、流行病学等各学科的发展都有重要的意义,也会给您和族人带来有益的影响……
除了血样之外,实验还需要输入的信息有:志愿者姓氏、民族、籍贯,父亲的民族和籍贯,母亲的民族和籍贯,已知最远祖先的籍贯、是否聚居、有无家谱等等。实验名称叫做“东亚民族遗传结构调查”,相当的人类学。
接下来就是抽血,每人5毫升。然后我们三个人分别被编号成YCH340、YCH341、YCH342。大约两三个月之后,会收到实验结果的email。实验结果我到时候再与诸位看官分享。

折腾完之后,和polyhedron同学聊了聊天。这个实验室居然就是前两天号称要测试曹操遗骨染色体以分辨真伪的那个实验室。他们直接老板是李辉,金力是大组的老板。实验室自己开了一个核心期刊《现代人类学通讯》,我笑道:“这下你们组的硕士们发paper可就方便了”。polyhedron笑言在国内,这个领域他们也算是老大了。撤退的时候抓了一期2007年的过刊,回京的火车上看得兴致勃勃。
那么这个测试的原理到底是什么?5ml血就能知道你的祖先从何而来?顺手读了一些资料,半懂不懂。作为生物学门外汉,板门弄斧显然很不明智。我也就是以软件工程师视角写写读书笔记吧。还请路过的生科牛们(如dy等,请自觉举手)点评订正之。
首先请看一个科普视频:人類學、族群、姓氏和Y染色體 [2] ,里面介绍了分子人类学的基础知识。我们送去待测定的遗传信息是Y染色体。男性的两条性染色体之一。根据下图 [3],Y染色体是在祖父-父亲-儿子之间继承的。不仅如此,Y染色体本身有一定的突变率(尽管不高)。因此某个父系祖先的某段Y染色体突变,会作为稳定的特征留给他的子孙,那么他的子孙群体中的所有人都会携带这个突变信息。

把观察范围放到全人类——如果把父系的遗传结构看成一棵如下图所示的多叉树,祖父在根节点,儿子们在子节点,每个儿子繁衍后均形成一棵子树——这些子树是不可能交叉的,因为一个人不可能同时有两个父亲。所以,假如某个孩子发生了Y染色体变异,那么这个变异只会“污染”他的子树,不会对他的祖先们的其他孩子产生影响。有意思的是,这种突变呈现出互相包含的层次结构。例如:如果C发生了突变,那么C、G、L、M、O、H、N、P节点都会携带突变C;如果G又发生了突变,那么G、L、M、O节点均会携带突变C和突变G,而H、N、P节点就不会有突变G了。因此,两位男性之间Y染色体基因序列差别越大(貌似可以用两个基因字符串的编辑距离表征),表明他们与共同祖先分离的时间越长,亲缘越疏,反之则越近。

这些突变本身也构成了一棵树。如下图所示(猛击这里查看更详细的版本,以及pdf版分布地图),每个节点是一个著名突变,这被称为人类Y染色体DNA单倍型类群(Human Y-chromosome DNA haplogroup)。如果某人发生了Y染色体突变,而他的后代又特别多,那么这个人/这个突变就会成为这棵树的一个节点。这个图能解读出很多信息:首先是亲缘关系,例如M89和M130突变是M168突变的后代;其次是时序关系,例如汉族最常见的M175变异的出现晚于M89变异,逻辑上可以推理出:汉族的祖先是从现今仅有M89而没有M175变异的地区迁徙而来——不知道人类起源自非洲是不是就是这样分析出来的。

所以接下来的工作就变成在Y染色体ATCG的长链条中寻找这样的标识共同祖先的片段。这样的事情IT民工肯定非常熟悉。如果抽象成一个数学问题或者数据挖掘问题,那么可以这样描述:在n个ATCG组成的字符串集合中,搜索m个字符串组成的子集,这个子集具有相同的子串。其中,字符串的长度(Y染色体的碱基对个数)大致为5000万 [4],n的数量(被抽样人群的个数)按polyhedron同学的说法,大致为10万量级。这个事情比较像是一个聚类问题——收敛困难、运算量超级大的聚类问题。困难之处在于如何抽取片段。如果是长度为n的字符串抽取任意长度的字串,那么计算量会高到不可接受。所以肯定有剪枝的方法,比如最大子串长度,或者一些基于生物学本身的知识进行搜索空间的裁剪。我不清楚搞遗传的同志们是如何从比裹脚布还长、让人头晕眼花的碱基对序列中找到这些片段的——靠超级计算机一阵猛算,还是靠某些不为人知的heuristic approach?
无论如何,这个东西牛的:能自圆其说,而且能够和更加宏观的体质人类学、语言学、文化人类学、考古学、历史学等做到互相印证。例如对于棕色人种C=M130走出非洲的分析,以及这篇关于丝绸之路古代种族的起源与迁徙(这篇文章分析了斯基泰人、雅利安人、吐火罗人的迁徙路径,多学科猛力交叉,看得人很过瘾)的文章等等。
mm们看到这里可能有点沮丧,都在说父系Y染色体的事情。其实母系这边也有类似的玩意儿:线粒体DNA(Mitochondrial DNA)可以用来追踪母系族谱。好像那个非洲的人类共同母亲“线粒体夏娃”的段子,原理我估计是类似的。
顺便打个广告,复旦大学人类Y染色体测试方法。听polyhedron说:5月是免费测试的末班车,6月起就要开始收费了。材料费¥1xx,测试一次可能会上¥200。所以,有兴趣去测试的男生,赶早吧。或者女生,把你们的父亲、兄弟抓去抽血吧~~~
另外,理论上,今天是娘校105周年校庆。此文也算是适时应景。
参考资料:
- 复旦大学现代人类学教育部重点实验室官方网站
- polyhedron同学原创,人類學、族群、姓氏和Y染色體,很好的科普片。
- 科学时报,在稳定中”突变” Y染色体:与姓氏宗族”演变”
- 百度百科,Y染色体
- 中国恐龙网,古生物、分子人类学、动植物论坛
- 《现代人类学通讯》,力荐,里面的文章均可免费下载pdf











