机器学习的热度近年来一直飙升。卷来卷去,大家最终都看向了最后的终点:数据量够大+体内体外验证形成闭环+想法够新。今天和大家一起学习这篇抗菌肽机器学习的文章吧!

继抗生素耐药后,抗菌肽(AMP)被发现(通过静电吸引结合带负电荷的微生物膜,形成离子通道导致内容物泄漏)。在医药领域,其不易耐药性被发现和广泛应用。打个比方,在抗生素这里,每种抗生素就是一把钥匙,微生物是一把锁,如果锁换了,那么就形成了耐药;在抗菌肽这里,抗菌肽是一把电钻,微生物膜是一面墙,即使锁换了,墙还是会被打孔,微生物仍然会漏液死亡。

那么,机器学习可以辅助抗菌肽什么呢?【新思路】

抗菌肽是由基因编码的,本质是10-100个氨基酸,传统技术很难检测这些微小的短肽,故被称为垃圾肽。机器学习可以处理大规模序列,并发现传统方法难以识别的潜在AMP。

1.第一步:说明自己建库的方法。该研究利用来自环境和宿主栖息地的63,410 个宏基因组和 87,920 个原核基因组的庞大数据库,创建了 AMPSphere,这是一个包含 863,498 个非冗余肽的综合目录。

2.第二步:验证库的准确性。 AMPSphere 包含来自多个栖息地的近 100 万 c_AMPs(候选抗菌肽【实验检测+算法交叉验证确认了数据库的可靠性,同时筛选出高潜力的AMP】【AMPSphere揭示了微生物组中大量新型抗菌肽(92.9%为全新序列),其独特性和多样性远超现有数据库】

3.第三步:AMPs的起源和进化。抗菌肽的稀有性和栖息地特异性,使其分布受生态位限制。c_AMPs不仅由独立基因编码,还可通过基因组突变(如提前终止)或翻译后剪切从全长蛋白中释放。追溯基因组的上下源,c_AMPs 更频繁地在与核糖体基因相关(核糖体基因有抗菌的功能)保守基因组中,推测可能是核糖体基因不恰当的时机进行了复制。c_AMPs的产生具有菌株特异性。传播性更强的物种具有更低的c_AMPs密度,即c_AMPs低传播性更强。c_AMPs的物理化学特性和二级结构,证明其活性与二级结构无关。

4.第四步:实验验证。天然抗菌肽通常不针对微生物群落菌株,合成的抗菌肽在低浓度下对至少一种(肠道)共生菌株表现出抑制作用;c_AMPs抗菌的机制通过优先破坏外膜,发挥抗菌作用;小鼠简单建模体内验证AMPs的抗感染效果。