针对冠状病毒大流行风险的深度学习

动物源性冠状病毒大流行风险预测对传染病防控具有重要意义。发表在《贫困传染病》杂志上的一项新研究提出了一种深度学习方法来预测人类感染动物源性冠状病毒的表型。在直接输入病毒基因组数据之后,将以高可信度实现大流行风险。https://idpjournal.biomedcentral.com/articles/10.1186/s40249-021-00912-6

冠状病毒在自然界中分布广泛,属于冠状病毒科。它们是带有包膜粒子的RNA病毒它们的基因组是单链正链。国际病毒分类委员会(ICTV)将冠状病毒分为α、β、γ和δ属。已报道7种具有人类感染表型的冠状病毒:人冠状病毒(HCoV) 229E、OC43、NL63和HKU1;严重急性呼吸综合征冠状病毒(SARS-CoV和SARS-CoV-2);中东呼吸综合征冠状病毒(MERS-CoV)。SARS-CoV、MERS-CoV和SARS-CoV-2具有高度传染性,在本世纪引发了大流行或严重流行病。

随着具有新型病毒抗原的动物源性冠状病毒跨物种传播,大流行的爆发将造成严重的经济和社会破坏。冠状病毒的天然宿主是自然界的蝙蝠,这些病毒病原体通过中间宿主(果子狸和单峰骆驼)传播给人类。遗憾的是,虽然高度怀疑穿山甲,但SARS-Cov-2的中间宿主尚不清楚。冠状病毒可以跨越物种屏障,通过点突变和基因组重组的机制感染人类。随着测序技术的快速发展和疾病监测的巨大努力,将大规模获取动物冠状病毒基因组数据。提出动物源性冠状病毒大流行风险预测模型,为传染病防控提供早期预警。

近年来,深度学习发展迅速,引发了语音识别、图像理解、自然语言处理等应用领域的变化。递归神经网络(RNN)是一种用于处理序列数据的神经网络,具有捕捉时间序列固有特征的能力。由于基因组也是由四个字母单位组成的长链,rnn可以提取生物序列的特征,并可以预测冠状病毒感染的表型。虽然深度学习方法在生物学和医学上有很多应用,但需要对冠状病毒基因组数据进行预处理,以使数学网络的设计更加合理。病毒颗粒表面的刺突蛋白是冠状病毒最重要的表面膜蛋白,负责与宿主细胞膜受体结合和膜融合。在跨物种感染中起着非常重要的作用。其他病毒蛋白对新宿主内部环境的适应也影响病毒的复制。在对病毒感染建模时需要考虑这些事实,应该使用人工基因组数据来增加刺突蛋白的权重,并建立一个稳健的模型。

深度学习方法的结构流程图。设计了五个主要步骤:基因组分割、序列嵌入、一维卷积、递归神经网络和注意机制。来自寇志,等,感染Dis贫困,2021。
深度学习方法的结构流程图

我们构建了一个预测模型,命名为CCSI-DL。该模型结合了双向GRU和一维卷积,并使用冠状病毒基因组序列作为直接输入来预测人类感染的大流行风险。我们使用单组和多组冠状病毒基因组数据对csi - dl模型进行了训练和测试,取得了良好的性能(1用于AUROC和1用于AUPR)。再训练实验表明,该模型具有良好的迁移学习能力,正确预测了刺突蛋白编码区基因组重组的人工负性数据。此外,我们还尝试使用该工具对来自巴西、英国、南非和印度的突变型SARS-Cov-2基因组数据进行预测,预测准确率达到100%。

冠状病毒的基因组序列长度约为27-32 kb。我们将病毒基因组的长序列分割成10个片段,以提高预测模型的性能。与传统的机器学习方法相比,深度学习模型掌握了冠状病毒全基因组的特征,并具有鲁棒性预测跨物种病毒感染的风险。尽管端到端模型易于特征提取,建模灵活,但仍需进一步考虑预测输出可解释性的发展,这将有助于未来对冠状病毒跨物种感染机制的理解。

在“健康”主页上查看最新的帖子

评论