做心脏研究的团队可能都踩过这个坑:bulk RNA-seq 测完一批样本,拿到的是整个组织的平均表达,细胞层面的差异全被抹平了。斯坦福医学院的 Kyle G. 之前也困在这里——他手里的心脏组织样本,用传统方法只能看到一团模糊的基因信号,根本不知道哪些细胞在搞事情。

他干脆自己搭了一套流程。Scanpy 做单细胞分析,Nextflow 管流程编排,AWS 负责算力,三个工具串成一条流水线。跑完第一批数据后,屏幕上的结果让他愣了一下:同样的心脏组织,这次蹦出了10种之前完全没见过的细胞亚型。

「Bulk RNA-seq 就像把一整杯水果奶昔倒进搅拌机,你只能知道里面有水果,但分不清是草莓还是芒果。」他在技术文档里写了这么一句。单细胞技术则是把每颗水果挑出来单独看——代价是计算量翻了几倍,成本也更高。

这套方案已经在 GitHub 开源。Kyle 提到,心脏组织的细胞异质性特别高,心肌细胞、成纤维细胞、免疫细胞混在一起,bulk 方法天生就适合用来"找不同"。有评论区的研究者说,他们实验室去年刚发的一篇论文,如果当时用上这套流程,结论可能要重写。

目前这套 pipeline 主要面向有 AWS 预算的团队。Kyle 在 README 里补了一句:本地服务器也能跑,但 10 万个细胞的矩阵,笔记本风扇可能会起飞。