首页 > 科技快讯 > 最完整的人类基因组序列,今天凌晨公布了

最完整的人类基因组序列,今天凌晨公布了

今天凌晨,《科学》杂志一连上线了6篇论文,第一次公布了人类基因组的完整序列。这项跨越3年的研究成果,填补了20年前测序结果留下的空白,是人类基因组研究的一个重大里程碑。

这次的完整测序和分析,是114位科学家共同完成的。这些科学家来自不同国家的33个科研机构,他们也被称为“端粒到端粒联盟”(Telemere-to-Telomere Consortium, T2T)。

填补8%的空白 

对人类基因组的研究,已经有50多年的历史。其中最有名的研究项目,是1990年启动的“人类基因组计划”。2003年4月14日,多国实验室耗费10多年的时间和30亿美元的资金,完成了人类基因组计划的测序工作,首次绘制出了人类基因组的图谱。当时的测序工作,大大推动了基因组学的研究,增加了我们对人体和疾病的理解。

但是,当时人类基因组计划得出的序列中,仍然留下了大约8%的空白,其中包含了很多高度重复的DNA序列,加起来有一条染色体那么长。

人类的1至22号染色体 | Andreas Bolzer et al.

这8%的缺失,源于20年前测序技术的限制。当时使用的测序方法是“短读长测序”技术(“short-read" technology),一次只能读取很短的一段基因序列。打个比方,如果把基因组的一部分想象成段落中的一句话,比如“今天早上小明吃了个包子”,通过短读长测序,研究者能得到很多简短的小部件,比如“今天”、“小明”、“明吃”、“包子”;再经过“拼图”式的分析,他们就可以拼凑出这句完整的话。

然而,研究者虽然能知道这段基因里含有的简短小序列,却无法知道这段基因被重复了多少次。也就是说,研究者能够拼凑出“今天早上小明吃了个包子”这句话,但却不知道这句话在整个段落里是否重复出现、重复了多少次。正因缺少这些信息,在过去的20年里,重复序列一直是基因组学研究的一大难题。

直到两种新技术诞生,人类基因组学的研究才迎来了转折点。这两种技术都属于“长读长测序”技术(“long-read" technology),一种是牛津纳米孔测序(Oxford Nanopore DNA sequencing),它可以一次读取多达100万个DNA碱基,准确度中等;另一种是PacBio HiFi测序,一次只能读取2万个碱基,但准确度近乎完美。这两种技术,都可以一次性测出大块的DNA序列,研究者可以直接看到一整个句子甚至段落,也就能知道某个序列连续重复了多少次。

T2T联盟的联合主席凯伦·米加(Karen Miga)和亚当·菲利比(Adam Phillippy)| T2T Consortium

从2019年初开始,T2T联盟的科学家将这两种新技术结合起来,致力于攻克这些重复序列,填补缺失的空白。2020年底,他们公布了阶段性成果——X染色体和8号染色体的完整组装。经过之后2年的努力,现在,他们终于揭开了真正完整的人类基因组序列,从端粒到端粒,包含了每一条染色体。

看到全部的基因遗产 

2001年,人类基因组计划公布的参考基因组被称为GRCh38,之后又在不断地被完善和修改;这一次,T2T联盟公布的新参考基因组叫做T2T-CHM13,是GRCh38的升级版。新增加的DNA序列总计近2亿个碱基对,不仅填补了之前空缺的5个染色体短臂,还揭晓了基因组中最复杂的区域——在端粒和着丝粒周围的高度重复的DNA序列。

用HiFi测序测出的CHM13基因组的示意图 | 参考文献[1]

这次完整测序,还纠正了以前的很多错误,比如一些之前没能被检测到的片段重复。这些长链重复DNA曾被认为是基因组里的“垃圾区”,没有什么实际的作用。但是,近年来,越来越多的研究都表明,这些重复序列对人类的进化和疾病可能是非常重要的。这一次,科学家们找到了基因组的最后一块拼图,终于拼凑出了打开宝箱的钥匙,接下来就可以研究其中尚未为人所知的宝藏了。

参与此次研究的其中一个实验组,来自美国加州大学圣克鲁斯基因组学研究所。研究所所长大卫·豪斯勒(David Haussler)说:“现在我们可以站在山顶,俯瞰下面的所有景色,看到我们人类全部的基因遗产。

完整基因组数据已经在NCBI和GitHub上公开 | NCBI

下一步,研究者们将会重点关注从前难以研究的重要区域,比如着丝粒。这次新增加的基因组序列,90%都来自着丝粒。着丝粒对基因信息的遗传极为重要,在减数分裂中,成对染色体就是从着丝粒开始分裂的。科学家认为,很多与疾病相关的基因变异,就藏在着丝粒的长段重复DNA之中。

科学家们还将尝试测序出更多的完整基因组。T2T会和人类泛基因组参考联盟(Human Pangenome Reference Consortium)合作,计划测出350个人的完整基因组序列,创建一个“人类泛基因组参考”,从基因组的角度来呈现和解读人类种群的多样性。

T2T 联盟的联合主席亚当·菲利比(Adam Phillippy)认为,完整基因组的测序和分析,对每个人都有好处。在不久的将来,对一个人的完整基因组测序会变得更便宜、更简单,研究者和医护人员也能从中识别出所有的基因变体,找到与疾病有关的部分,从而为人们的医疗与生活提供建议。

参考文献

[1]https://www.biorxiv.org/content/10.1101/2021.05.26.445798v1

[2]https://www.eurekalert.org/news-releases/946948?

[3]https://www.eurekalert.org/news-releases/947718

[4]https://www.eurekalert.org/news-releases/947629

[5]https://www.eurekalert.org/news-releases/947636

[6]https://www.eurekalert.org/news-releases/947910

本文来自微信公众号 “果壳”(ID:Guokr42),作者:猫吞,编辑:麦麦,36氪经授权发布。

相关推荐

最完整的人类基因组序列,今天凌晨公布了
胜利在望:即将完整的人类基因组
挑战造物主的“科学极客”,差点就破解了人类基因组
Moderna新冠疫苗遭破解!斯坦福科学家在GitHub上发布完整mRNA基因序列
重复的基因:你我都是复读机
基因测序:比肩移动的下一个“平台技术”(二)
基因测序:比肩移动的下一个“平台技术”(一)
基因测序:比肩移动的下一个“平台技术”(三)
人类正向“造物主”靠拢:基于CAD的全新基因编辑软件,让设计新生命像画画一样简单
曾引起人工智能、生命科学两界大地震,DeepMind背后的AlphaFold2是什么来头?

网址: 最完整的人类基因组序列,今天凌晨公布了 http://m.xishuta.com/newsview61400.html