近日,加拿大麦吉尔大学丁俊教授和团队研发出一款名为 scSemiProfiler 的单细胞半测序器

通过利用生成式人工智能和主动学习的方法,只需使用少量费用测量一些代表性样本的单细胞数据,就能结合所有样本的 bulk 数据,来针对所有样本生成高精度的单细胞数据。

即本次方法能够针对单细胞数据实现“半测序”,然后将这些单细胞数据作为模板,来把其他样本的 bulk 数据分解成为单细胞数据。

这样一来不仅可以节约成本,并能提供与真实数据相似的半测序单细胞数据。利用本次工具所生成的半测序数据集,和真实数据集十分相似,并且相关的源代码能被无缝安装。

打开网易新闻 查看精彩图片

(来源:Nature Communications)

从 bulk 数据中生成单细胞无疑是一个十分新颖的方法,可以极大程度上减少单细胞测序的成本,从而可以促进该项技术在大规模疾病队列上的应用。

总的来说,这款方法能够提供既便宜、又可靠的单细胞“半测序”数据,能让科研人员、医疗工作者和工业生产人员,用上既简单、又便宜的单细胞测序技术。

打开网易新闻 查看精彩图片

“18000 美元和 100 万美元”

丁俊表示,很多学者都希望在研究中使用单细胞测序技术,因为单细胞技术比传统 bulk 技术有着更高的精度,故能测量单个细胞的基因表达。而传统 bulk 技术只能测量一群细胞的平均基因表达值。

但是,单细胞技术的价格比传统 bulk 技术要贵很多。比如,同样研究 100 个样本的队列,假设每个样本需要测 5000 个细胞,bulk RNA 测序只需要花费大约 18000 美元,而单细胞 RNA 测序则需要花费大约 100 万美元(基于 2023 年麦吉尔大学医学中心成本估计)。

为了解决单细胞数据价格昂贵的问题,人们开始使用去卷积的方法,并尝试借助单细胞数据模板,来从 bulk 数据中估计出不同细胞类型的细胞比例。

但是,这些方法依然不能解决问题,因为所估计出的细胞比例,相比单细胞数据缺少了很多信息,而且现有方法的估计结果往往也不够准确。

因此,丁俊及其团队的王靖韬等人希望利用 bulk 数据中的信息,使用人工智能方法还原出单细胞基因表达数据。这样一来,当进行大规模队列时,就可以得到更加经济实惠的高质量单细胞数据。

打开网易新闻 查看精彩图片

(来源:Nature Communications)

打开网易新闻 查看精彩图片

在挑战和质疑中“获胜”

研究中,丁俊及其团队观察到:在其他领域比如计算机视觉,生成式人工智能方法已被用于提升数据分辨率。

以此为启发,他和团队决定采用深度生成模型,即采用变分自编码器和生成对抗网络,来提升 bulk 测序数据的分辨率。

丁俊表示,之所以这样做是因为他和团队观察到变分自编码器和生成对抗网络,已经能将旧图像分辨率提升至 4K。

假设能将类似的方法用于 bulk 测序数据,那么分辨率将能达到单细胞数据的“4K”水平。

打开网易新闻 查看精彩图片

(来源:丁俊)

但是,对于单细胞数据和图像数据来说,它们各有各的挑战,因此无法简单照搬其他领域的方法和思路。单细胞数据的噪声更大,而且细胞和基因的顺序不具有特定意义。

同时,本次方法也并非简单地类提升图像分辨率,它更是对于数据维度的提升:即将一维的 bulk 数据,提升成为“细胞+基因”的单细胞数据矩阵,所以操作难度也更大。

更重要的是要保证提升完的数据确实可以加深对疾病的研究,帮助寻找到更有效的疾病标记物和治疗靶点,而不仅仅是简单的提高维度。

对于 bulk 数据来说,它某种意义上是单细胞数据在细胞维度上的平均数据。所以,丁俊和团队在使用生成式模型来重构单细胞样本的过程中,利用这一特性去约束生成的单细胞数据,设法让所生成的单细胞样本的平均值,接近目标样本的 bulk 数据。

此外,为了实现成本的最小化,即为了在使用时只需测量最少的代表性样本,他和团队开发出一种主动学习算法。算法能以迭代的方式,来选择最具信息量的代表性样本,从而实现半测序性能的最大化。

这时,他们所要打造的新方法基本形成雏形,于是开始在多个公开数据集上进行测试,借此证明了本次方法在不同场景下的有效性。

此外,课题组还不断地使用新数据集开展验证,通过此发现了一系列现实场景中存在的挑战。比如单细胞数据和 bulk 数据的测序技术存在系统性差异,再比如特殊情况下生成的单细胞数据和真实数据的相似性欠佳等。

于是,他们采用一些方法针对模型加以调整,包括开发能够绕过不同测序技术系统性差异的模型训练方法、开发新颖的模型训练技术、以及调整模型训练过程等,确保了本次方法的鲁棒性和准确性。

打开网易新闻 查看精彩图片

(来源:Nature Communications)

在开展此次研究的过程中,丁俊团队遇到了不少挑战与质疑。以往没有研究团队使用这种方法来提升单细胞数据的维度,通常研究人员更多是从 bulk 样本中估计细胞类型的比例,因而无法达到单细胞水平的精确度。

尝试从未有人成功过的研究方向,带来了潜在的风险和挑战甚至是质疑,尤其是作为麦吉尔大学医学院的新成员,对于丁俊团队来说,他们要在资源相对有限的情况下,进行这样一个极具挑战性和不确定性的项目,难度可想而知。

在此背景下,团队在项目中取得的几次阶段性突破不仅振奋人心,更坚定了团队通过该方法来降低大规模单细胞队列测序成本的信心和决心。

第一个突破是:

现有的深度生成模型在重构单细胞数据时性能不佳,生成数据与原始数据间存在显著差异。

多次调整模型之后,他们决定改进模型架构,采用变分自编码器与生成对抗网络(VAE-GAN)结合的策略,并例如图卷积的形式集成了大量生物先验知识。

最终,他们开发出一款原创模型及其训练方法,成功实现了单细胞数据的高精度重构。

第二个突破是:

在将 bulk 数据分解为单细胞数据的过程中,最初生成的细胞与真实细胞之间存在较大差异。

通过对深度学习训练的各个步骤进行优化,他们开发出一种全新的模型训练方法,能够更加精确地控制梯度在不同训练阶段的传导,使生成的数据与真实数据在可视化和分析结果上高度一致。

第三个突破是:

在处理 bulk 测序和单细胞测序技术的系统性差异时,现有方法未能有效解决性能问题。

他们通过开发一种数据转化方法,成功绕过了测序技术的系统性差异,并在不同应用场景下的多个数据集中取得了准确的单细胞数据生成结果。

最终,相关论文以《scSemiProfiler:通过深度生成模型和主动学习进行半定量分析,推进大规模单细胞研究》(scSemiProfiler: Advancing large-scale single-cell studies through semi-profiling with deep generative models and active learning)为题发在 Nature Communications[1]。

打开网易新闻 查看精彩图片

图 | 相关论文(来源:Nature Communications)

王靖韬是第一作者,丁俊担任通讯作者。

打开网易新闻 查看精彩图片

图 | 丁俊(来源:丁俊)

目前,已有大量针对 RNA 测序进行开发的方法。理论上,本次方法也能扩展到其他任何模态的数据。

因此,下一步他们将尝试将本次方法用于其他模态之中。同时,虽然本次方法很有潜力去降低大规模单细胞的测序成本。

但是,计算算力的限制是他们无法回避的难题。由于该团队的模型使用深度生成模型和主动学习模型,因此都非常消耗算力。

对于拥有算力资源的计算领域的课题组,这可能并不是一个很大的问题。

但是,医学研究者和生物研究者是本次方法的最大潜在用户群体,而他们通常并没有足够的算力来支撑模型的训练和预测。为了消除这一个障碍,丁俊等人正在开发基于云端的版本并将提供给所有用户。

未来,他希望能让更多人便捷地使用 scSemiProfiler 方法,从而能够获取高质量、低成本的单细胞数据,最终为科研带来更多助力。

打开网易新闻 查看精彩图片

参考资料:

1.Wang, J., Fonseca, G.J. & Ding, J. scSemiProfiler: Advancing large-scale single-cell studies through semi-profiling with deep generative models and active learning.Nat Commun 15, 5989 (2024). https://doi.org/10.1038/s41467-024-50150-1

运营/排版:何晨龙

01/

02/

03/

05/

打开网易新闻 查看精彩图片