新起点
泛基因组
2020-05-09 12:26:00

泛基因组是为描述一个物种基因组而提出的概念,指同一细菌物种中所有菌株中所有基因的集合,而不单纯以某个菌株为一个物种的全基因组。会需要使用泛基因组的原因是水平基因转移造成不同菌株之间所拥有的基因相差甚大。

泛基因组的英文是Pan-genome, Pan- 来自希腊语词汇 παν,意思是“全部的”。在1987年,细菌物种的概念是大于70%的DNA相关联,并具有相同的表型性。但是随着对大量细菌基因组测序的完成,这种概念区分方法变得模糊、不确定——测定同一物种的不同菌株,常会有新的基因出现。这个概念常被用于总体基因体学、演化生物学,应用的物种也有被延伸到植物或古菌。

泛基因组包含核心基因和附加基因。核心基因是所有个体都拥有的基因,附加基因则为非核心基因的基因。在附加基因组中,若仅有一个个体具有该基因,则可称之为独特基因(英语:unique gene)。为了允许注解及基因序列组装的错误,对核心基因组较为宽松的定义可称之为软核心基因(soft core gene),其定义为于 95%以上的个体具有此基因。

各物种有两种泛基因组,分别为开放型泛基因组和闭合型泛基因组。闭合型泛基因组的物种随着被定序的个体数量增加,泛基因组的大小增加有限,使得完整的泛基因组大小是在数学上可以预测的。相反地,开放型基因组的物种随着定序的个体增加,其泛基因组的大小并未收敛。影响物种是为何种泛基因组,受到族群大小、水平基因转移等影响。

最早的泛基因组概念是由Tettelin等人在研究六株B型链球菌的菌株时提出的 ,最主要的概念就是找出所有菌株共有的核心基因(约占每只菌株基因体的80%),以及非必须的附加基因(有可能只存在于一小部分的菌株中,或甚至只出现在单一菌株的基因体中),并透过核心基因与附加基因的组合来描述B型链球菌。外推法模型预测这只细菌的基因库会持续增长,且即使在加入数百只细菌后,新的基因将会不断加入,显示这只细菌的总基因库相当庞大。

44株肺炎链球菌菌株的泛基因体分析与B型链球菌有着不同的特征形态—虽然每这44株细菌的基因体都会贡献新的基因给肺炎链球菌的基因库,但是基因增长速度会随着细菌数量的增加而明显变慢。事实上,外推法预测在50只细菌加入后,新基因的数量将会降到零。显而易见的是这个特征并非所有细菌共有的。对肺炎链球菌来说,新基因最主要的来源是和缓链球菌的水平基因转移。肺炎链球菌的泛基因大小将会与菌株数量成对数级增加,而与新加入基因体的核苷酸多形位点数量形成线性关系,显示年纪越大的菌株将会越有可能得到新基因。

最后一个例子是原绿球藻的核心基因体与完整的泛基因体大小比对。 在这个例子中,核心基因体明显地比泛基因体小很多,而不同生态型的原绿球藻会有着不同的基因组合。另一篇2015年的研究也在从人类身上不同部位分离普雷沃氏菌属,并重建泛基因体后,发现这只细菌有着庞大基因库,且属于开放式泛基因组类型。

随着越来越多人关注泛基因体学,有更多的软件可以用来建立与分析泛基因体、绘图、注解。

2014 年底最高引用数的的软件为 Panseq 以及 pan-genome analysis pipeline(PGAP)。其他的选择包含 BPGA - A Pan-Genome Analysis Pipepline for prokaryotic genomes、GET_HOMOLOGUES、Roary 与 CD-HIT GET_HOMOLOGUES or Roary.。针对各家软件的比较,可以参照 2015 年的一篇文章。

针对植物泛基因体的软件有 GET-HOMOLOGUES-EST。有关植物泛基因体可以参照 2015 的一篇文章。

网站公告: