用新工具解决基因组数据损坏

数据转换和格式默认值可能会导致对科学数据的不良转换。一种recently published文章BMC基因组学证明了基因组学数据腐败问题的可能解决方案。

随着科学研究越来越依赖已发布的数据集和在线资源,数据腐败的影响越来越关注。在基因组学领域尤其如此,研究人员经常使用在线存款并发布补充剂进行分析。

通过在Microsoft Excel等程序中格式化默认值时,可能会发生问题。当基因名称转换为日期时,这给基因组研究人员带来了问题。例如,当程序自动将此基因名称格式化为日期时,输入的基因名称(例如“ sept2”)可以转换为2016/09/02。

这个问题的巨大规模是由Ziemann等在an文章发表最近基因组生物学。研究人员扫描了主要的基因组学期刊,发现其中一篇含有补充基因的论文列出了这些错误。704个出版物的987个补充文件中存在更改的基因名称。有趣的是,它发生的是,影响最高的因素的期刊更有可能包含损坏的数据。

Pixabay
Pixabay

在已发表的材料中发现这种高的数据腐败速率与基因组学界的困扰,后者大量利用这些数据源。此错误可能很难逆转,并且几乎没有已知的解决方案可以对其进行补救。

为了打击这个令人不安的问题,来自西班牙的西班牙卫生研究所Trias I Pujol(IGTP)的团队已开发了一种名为的新软件工具特鲁克,帮助保留基因组数据的完整性。文章中描述的新软件recently publishedBMC基因组学恢复损坏符号到原来的一代e names, through methods such as library referencing and reverse engineering.

By sourcing data from the国家生物技术信息中心(NCBI)数据库,一个错误的基因符号的库,并预测了相应的“日期”。当系统扫描用户的数据集时,将确定错误日期,然后转换回其原始基因名称。保障措施是为了避免系统中的错误。例如,如果虚假日期可能对应于多个基因名称,例如sept1或sept-1,则将此差异标记给用户进行操作。

特鲁克Web应用程序是使用R,Shiny,HTML和Bootstrap2编程工具构建的,可在https://maplab.cat/truke

如图所示文章,向我们介绍了一个潜在的解决方案,科学家和出版商通常会忽略这一问题。尽管每年发布越来越多的数据,但也许可以在软件解决方案的帮助下减少对数据完整性的威胁。

查看BMC系列博客主页上的最新帖子188宝金博备用网址

Comments