新工具箱:我们需要什么来处理新的人类引用程序集

一个新的,完全注释的参考人类基因组GRCh38,现在已经有一年多一点的时间了。它带来了丰富的新信息,但也打开了方法论的潘多拉盒子。最近议论在里面基因组生物学参与基因组参考联盟的主要科学家解释了更好地利用这一巨大资源需要什么。

人类基因组计划的主要成果是人类参考大会,这是一种供所有人使用的资源。人类参考序列是一个线性序列,由50个个体的倒塌基因组汇编而成,随着新测序技术的发展,在过去十年中,该序列得到了改进。

当然,很明显,以这种方式定义的参考集合不一定代表整个人类,也不试图代表整个人类,但为了更全面、更好地代表许多不同的世界人口、准确地描述人类之间的差异,我们首先需要改变这个引用的结构。

这就是基因组参考联盟自成立之初就一直在研究的内容:它建议参考中包括替代序列,以反映人类之间的变异复杂性和差异。这一变化在先前版本的参考文件GRCh37中已经可见。然而,直到大约一年前GRCh38发布时,这一变化的全部范围才变得明显。

那么新的参考GRCh38是什么样的呢?首先,它不是线性的,也不代表基因组的单倍体或二倍体版本。它是一个随机多序列的集合——基因组中某些区域的序列更多,而其他区域的序列更少。它包含的信息比之前发布的任何人类参考都要多得多。

随着我们对生物系统的理解,我们必须更新用来表示这些数据的模型。


迪安娜·丘奇和他的同事们,基因组生物学2015,16:13

然而,事实证明,这不一定是一件好事(至少在短期内不是)。正如迪安娜·丘奇(Deanna Church)、理查德·德宾(Richard Durbin)、保罗·弗利切克(Paul Flicek)和他们来自GRC的许多同事现在在议论在里面基因组生物学,许多用于序列与人类参考基因组比对和分析的生物信息学工具在如何对测序DNA进行质量控制方面受到限制。而且他们根本无法处理同一基因组区域存在多个参考序列的可能性。

这对我们意味着什么?首先,这对生物信息学家来说意味着大量的工作,他们要么调整现有的工具,要么开发新的工具来正确使用新的参考组件。从长远来看,这一努力肯定会有回报:它必将推动现有工具的进一步发展,更重要的是,一旦我们能够充分探索新基因组参考的潜力,我们仍能发现的东西就只有天空了。

查看生物学主页上的最新帖子金博宝188

评论