人类基因组中有数以万计的基因,这些基因包含着每一个基因的遗传密码、蛋白质合成和生命运行指令我们,共同影响我们的特征和行为。

这和我们常见电子产品的使用说明书是一样的。研究人类基因组将帮助我们了解人体的工作方式、预防疾病,并且对长寿至关重要。

科学家一般用数字和字母的组合来命名每个基因,并用Excel进行数据记录。然而,错误经常发生。不是人为的,而是Excel会自己改基因名,这让科学家们很苦恼。

Excel不仅是科学家,也是我们常用的办公软件。它的一些功能确实非常方便和智能。现在你打开Excel,输入“1-1”,Excel会自动转换成“1月1日”,非常方便。

但是如果你只想输入“1-1”,你会觉得很疯狂,显然是多管闲事。

同样的机制让生物学家,尤其是遗传学家感到困惑。因为Excel的这个机制会随意把人类基因组的名字转换成日期。

这个问题是从2004年开始出现的,由于Excel自动转换导致很多论文出现了一些低级错误。

国内外网友一直认为,这应该是微软自己修改的,但这涉及面很广。很明显,微软没有动力也没有兴趣在Excel上采取行动。

到目前为止,科学家似乎已经迷失了,不得不更改一些基因的名称,以防止这种事情再次发生。一般来说,修改基因名称也比较容易。

比如人体细胞中有一种叫做“Septin2”的蛋白质,基因名称是“SEPT2”,如果你在Excel中输入“SEPT2”就会变成“2-Sep(九月2日)”。

《membrane-associatedringfinger(c3HC4)1,E3UbiquitinProteinLigase》基因名“MARCH1”,输入Excel后变成“1-Mar(三月1日)”。

在2016年发表的研究中,共3597篇论文包含基因名称,发现有704篇论文因Excel出错,约20%的论文受到Excel自动转换功能的影响。

研究人员指出,Excel是基因研究的错误来源在Excel中,这种自动转换不仅改变了显示内容,而且改变了数据本身,后期很难修改。

遗传学家的应对方式是将单元格的格式改为“字符串”等,但也出现了其他人打开同一个Excel文件时自动转换的问题,费了九牛二虎之力才解决。

因此,人类基因分析研究所人类基因组命名委员会(HGNC)于2020年8月3日在《自然》期刊上发表了新指南,标题为《人类基因命名指南》(人类基因命名指南)

宣布更改为“影响数据处理和检索的符号”。

因此,“SEPT2”被标记为“SEPTIN2”,“MARCH1”被标记为“MARCHF1”。以后在命名新发现的基因时要考虑Excel的自动转换。

根据HGNC协调员ElspethBrufo的说法,在指南发布之前就已经对基因名称进行了更改,仅在过去一年中就有27个基因更改了名称。

Bruford在接受TheVerge新闻网站采访时评论道:“虽然基因名称一般不容易改,但改名并不罕见。”比如错误的名词“CARS”之前改成“CARS1”,“WARS”改成“WARS1”。

新的HGNC指南可以说是科学家被Excel“多管闲事”折腾的例子。

论文资料:

《Gene name errors are widespread in the scientific literature》

链接:doi.org/10.1186/s13059-016-1044-7

《Guidelines for human gene nomenclature》

链接:doi.org/10.1038/s41588-020-0669-3