在人类基因组中有着数以万计的基因,这些基因包含着我们每一个人的遗传密码,蛋白质合成,生命运作的指令,它们共同影响着我们性状和行为。

这就是我们常见的电子产品的说明书一样,研究人类基因组将有利于我们知道人类身体运作的方式,预防疾病,以及在长寿方面至关重要。

科学家一般会对每一个基因以数字和字母组合的方式进行命名,使用Excel进行数据记录。但是却常常出现错误,并非是人为而是Excel会自行更改基因名称,这让科学家十分苦恼。

Excel不仅是科学家,也是我们常用的办公软件,其中有些功能确实十分方便,智能。现在你打开Excel在其中输入“1-1”,那么Excel会自动将其转化为“1月1日”,很方便。

但是你要是单纯想输入“1-1”的话,就会觉得抓狂,明显是多管闲事。

同样这个机制也困扰着生物学家,尤其是基因学家。因为Excel的这个机制会擅自将人类基因组名称转化为日期。

这个问题从2004年就已经出现,导致了很多论文因为Excel自动转化的原因出现一些低级错误。

一直以来国内外的网友都认为这应该让微软自己修改,但是这涉及的面比较广,很明显微软没有动力、也没有兴趣对Excel进行开刀。

目前看来科学家们已经输了,只好更改一些基因的名称,防止这类事情再次出现。总的来说,修改基因名称也比较容易。

例如,在人体细胞中有一种蛋白质为““Septin 2”,基因名称为“SEPT2”,如果你将“SEPT2”输入Excel就变成了“2-Sep(9月2日)”。

“membrane-associated ring finger ( c3HC4) 1,E3 Ubiquitin Protein Ligase”这个基因的名称“MARCH1”,输入Excel变成了“1-Mar(3月1日)”。

在2016年发表的研究中,在含有基因名称的3597篇论文中,发现了被认为是Excel原因的错误论文有704篇,大约20%的论文中出现了这样的Excel自动转换功能的影响。

研究人员指出Excel是基因研究的错误源头,在Excel中,这种自动转换不仅会改变显示内容,还会改变数据本身,以后很难修改。

遗传基因学家将单元格的格式变更为“字符串”等进行了对应,但也存在其他人打开同一个Excel文件时自动转换的问题,在解决上颇费苦心。

因此,人类基因分析机构的人类基因组命名法委员会( HGNC )于2020年8月3日在《自然》杂志上发表了新的指导方针,名称为《人类基因命名指南》(Guidelines for human gene nomenclature)

宣布改变“影响数据处理和检索的象征”。

据此,“SEPT2”被标记为“SEPTIN2”,“MARCH1”被标记为“MARCHF1”,今后新发现的基因在命名的时候要考虑到了Excel的自动转换。

据HGNC的协调人埃尔斯佩斯·布鲁福说,在指南发表之前就进行了基因名称的变更,仅过去一年就有27种基因被变更了名称。

布鲁福德在接受The Verge新闻网站采访时评论说:“虽然基因名称一般不轻易改变,但改名也并不稀奇。” 例如,以前也将错误的名词“CARS”变更为“CARS1”,“WARS”变更为“WARS1”。

此次HGNC的新指导方针可以说是科学家被Excel的“多管闲事”折腾的一个例子。

论文信息:

《Gene name errors are widespread in the scientific literature》

链接:doi.org/10.1186/s13059-016-1044-7

《Guidelines for human gene nomenclature》

链接:doi.org/10.1038/s41588-020-0669-3