本次训练营面向的是《纯生信公共数据库挖掘”型论文复现与迁移》:不需要做任何湿实验、不依赖自建队列,只需从公开数据把研究做成一篇可发表的机制文章。我们将以公共 bulk转录组/单细胞数据 + GWAS/eQTL为核心,教你把“现象关联”升级为“因果证据”,把“群体层面的信号”落到“细胞类型与细胞状态”上,用一条清晰的证据链完成从选题到主图的全流程。

课程最核心的亮点是孟德尔随机化(MR)+ 单细胞(scRNA-seq)/细胞互作先在公共转录组中筛出稳健候选,再通过eQTL–GWAS 的 MR建立“基因/暴露→疾病”的方向性因果关系,解决最头疼的“只是相关、说服力不够”的问题;随后把 MR 锁定的关键基因带入单细胞数据,完成细胞类型定位、表达分布、轨迹变化与细胞通讯,让结论从“一个基因可能有关”变成“哪个细胞在什么时候通过什么互作通路驱动表型”。

最终学员将获得一套可复制到任何疾病方向的公共数据库发文模板MR 提因果、单细胞给机制、主图可交付,让没有实验条件也能做出审稿人认可的研究闭环。

论文介绍

本次复现的论文如下

打开网易新闻 查看精彩图片
https://www.sciencedirect.com/science/article/pii/S227458072500041X

01

课程特色

1. 纯公共数据库发文闭环:无实验也能做出“可投稿”的研究链路

不需要湿实验、不依赖自建队列,全程基于GEO等转录组数据 + IEU OpenGWAS/finngen 等结局数据 + eQTLGen 等 eQTL 数据 + 单细胞公开数据完成从选题到主图的闭环。重点教你把公共数据“挖深、挖实、挖出因果证据”,让临床医生/在读博士也能用公共数据做机制文章。

2. 全流程系统教学:从公共数据下载到主图交付的“保姆级模板工程”

不是零散技巧,而是完整工程化流程:数据下载→清洗与样本信息→差异/交集→富集与网络→MR(含敏感性)→模型验证(ROC等)→GSEA/免疫浸润→调控网络→单细胞注释/轨迹/通讯。配套可复跑代码模板、参数表、验收清单,确保每节课都有明确输出的图表。

3.AI赋能迁移到你自己的方向:从“复现一篇”到“复制一类文章”

课程交付的不只是这篇文章的复现结果,而是一套可迁移的“公共数据库发文框架”:换疾病、换组织、换表型,也能快速套用流程,形成你自己的可复用代码库与套路模板。后续做自己的课题时,遇到数据选择、MR 工具变量、单细胞验证、图形呈现等问题,都有针对性的迁移指导思路。

4.直播授课 + 录屏回看 + 长期答疑:

直播课实时互动、课后录屏反复看,资料包(代码/讲义数据/出图模板)全配齐;课程结束答疑不结束,后续自己数据分析过程中遇到问题也是一对一指导答疑,真正做到包教包会,学有所用做出更有价值的研究成果。

5.一对一指导 + 包教包会:

七名全职的答疑助理,从早上八点到晚上十二点全天在线 ,365天全年无休的一对一答疑,实打实保证一对一指导的学习效率。

课程结束答疑不结束,后续自己数据分析过程中遇到问题也是一对一指导答疑,确保学完能直接上手课题,让你真正学得会、用得上、挖掘公共数据库完成自己的科研成果。

02

课程时间

一个月系统教学,实打实包教包会

每周二、周四和周日晚19:00-22:00

共十五节课

十二节课程精讲,三节课答疑和总结

03

课程核心模块

第一节课:AI + 公共数据库发文范式解读:从“相关性堆结果”到“MR×单细胞的因果机制证据链”

基于 Deepseek 高效精读“公共数据库挖掘型论文”

用 Deepseek 快速拆解这类文章最核心的发文逻辑:为什么只靠公开数据也能写出“机制感”、怎样把多队列/多数据库拼成一条可信的证据链、创新点通常落在哪里(因果、机制落点、外部验证、可解释性)。

Deepseek 拆解论文叙事框架:一条可复用的“公共数据因果链”

从“提出临床/生物学问题”开始 → 公共转录组多队列发现与稳健验证 → 富集/网络锁定候选 →eQTL–GWAS MR 建立方向性因果(不是相关)→ 敏感性分析自证可靠 →单细胞定位到细胞类型/状态→ 轨迹/通讯补齐“谁在驱动、如何互作”的机制解释 → 形成可投稿的主图叙事闭环。

ChatGPT:把这套范式迁移到你的疾病方向(选题到主图规划)

现场示范如何用 ChatGPT 做“可发文选题设计”:
1)如何选合适的公共数据组合(表达队列/结局GWAS/eQTL/scRNA)
2)如何定义暴露与结局、提前规划 MR 的可行性(IV数量、组织匹配、方向)
3)如何把“MR结果”落到单细胞的验证任务(要看哪些细胞、哪些状态、哪些互作)

打开网易新闻 查看精彩图片

第二节课:公共数据处理和差异分析

1.从GEO数据库下载芯片数据,整理为训练集

2.下载RNAseq数据进行临床分组信息,整理为验证集表达矩阵

3.数据预处理:探针注释、重复基因合并、缺失处理

4.每个样本 QC、数据标准化和批次效应处理

5.limma包进行差异分析:得到表达差异 DEGs, 作为候选基因

第三节课:功能富集与蛋白互作网络:PPI/关键节点筛选(“把故事讲成机制”)

1.多队列一致性验证:方向一致、显著性一致、可视化一致

2.GO、KEGG和Reactome 富集:显著通路筛选与可视化

3.GSEA 通路富集分析:从“基因列表”到“通路级解释”的转换

4.STRING 构建 PPI 网络:导出网络文件 + Cytoscape 可视化

5.网络关键节点(hub)与模块(cluster)筛选:构建“机制候基因”

形成“基因—通路—网络”三层证据材料

打开网易新闻 查看精彩图片

第四节课:eQTLGen数据库构建孟德尔随机化的工具变量(IVs)

1.从eQTLGen数据库下载Significant cis-eQTLs

2.阈值筛选与暴 露显著相关的 SNP

3.进行 连锁不平衡去相关,确保保留的 SNP 彼此独立

4.过滤弱工具变量, 满足与暴露因子显著相关且与结局变量相互独立

打开网易新闻 查看精彩图片

第五节课:基于 eQTL 暴露与疾病 GWAS 多基因孟德尔随机化分析

1.将暴露数据与疾病结局数据统一转换为 outcome/exposure 标准格式

2.用 SNP 取暴露与结局的交集,生成 SNP 的结局数据表

3.每个基因对应的暴露子集做等位基因方向一致化

4.MR 分析并做异质性、多效性、单 SNP、留一法等敏感性检验

第六节课:筛选有意义的暴露因素和基因单独做孟德尔分析

1.读取 MR 的全量结果,只保留IVW 方法p值显著的结果

2.显著暴露再做OR 方向一致性筛选,确保同一暴露在不同方法下效应方向一致

3.多效性(pleiotropy)与异质性(heterogeneity)结果按照 p 值进行筛选

4.用最终 IVW 筛出的暴露(基因)列表反向过滤 eQTL 数据,得到“高可信 IV 集合”

5.筛选出有意义的基因后,单独对每个基因做孟德尔随机化分析

打开网易新闻 查看精彩图片

第七节课:诊断与预测能力验证:ROC/AUC + 多指标对比

1.单基因 ROC 与多基因联合 ROC:训练集 + 验证集 AUC 比较

2.交叉验证/重复抽样:避免偶然高 AUC 的伪结果

3.校准曲线与分层分析:不同亚组/不同批次下稳定性评估

4.Nomogram 构建与可解释输出:让临床读者看得懂、用得上

5.DCA 决策曲线:补齐临床净获益证据(文章结构更完整)

打开网易新闻 查看精彩图片

第八节课:机制挖掘一:单基因/核心基因的通路机制(GSEA / GSVA)

1.按核心基因表达分组构建比较框架

2.单基因 GSEA(KEGG/Hallmark):输出标准化 NES、p.adjust、核心富集基因

3.GSVA 打分:把通路活性转成样本级矩阵,便于画图与统计

4.与临床分组/表型关联:把通路变化写成 机制解释段落

5.输出 核心基因→关键通路 的主图级图组(GSEA曲线 + 通路热图等)

打开网易新闻 查看精彩图片

第九节课:机制挖掘二:免疫浸润与炎症环境(ssGSEA/多算法交叉验证)

1.免疫细胞基因集准备与 ssGSEA 打分(GSVA)

2.免疫细胞差异比较:疾病组 vs Control 分层比较

3.核心基因与免疫细胞相关:Spearman 相关 + 热图/散点回归

4.多算法交叉验证:xCell/EPIC/CIBERSORT 思路与结果一致性检查

5.输出 基因—免疫—通路 三联证据图,补齐审稿人常问的免疫解释

第十节课:调控与关联:ceRNA 网络 + 疾病/药物关联(公共数据库可完成)

1. miRNA 靶向预测(如 miRTarBase/TargetScan 思路)得到 miRNA–mRNA 对

2. lncRNA–miRNA 关联(如 starBase 思路)补齐上游调控

3.构建 lncRNA–miRNA–mRNA(ceRNA)网络:导出边表/节点表并可视化

4.疾病关联/证据补齐(如 CTD 思路):核心基因与疾病关联排名展示

5.输出 调控网络图 + 疾病关联图 ,让文章从 结果 变成 更像机制论文

打开网易新闻 查看精彩图片

第十一节课:单细胞验证一:把 MR 基因落到具体的细胞类型上

1.下载单细胞数据与注释信息:建立可复用对象(Seurat 对象)

2.QC、归一化、高变基因、降维聚类:标准化流程与关键参数

3.细胞类型注释:marker 规则 + 自动注释(SingleR和ScType 思路)+ 人工校正

4.核心基因在细胞类型中的表达:FeaturePlot/VlnPlot/DotPlot

5.输出 关键基因在哪些细胞表达、差异在哪些细胞最明显 的主图证据

打开网易新闻 查看精彩图片

第十二节课:单细胞验证二:轨迹推断 + 细胞通讯(把机制写成 谁驱动、如何互作 )

1.选定关键细胞亚群:基于标记基因与表型差异进行聚焦

2.轨迹分析(Monocle2 和 3/scVelo):状态转变与关键节点解释

3.核心基因沿轨迹变化:把因果基因接到状态变化上

4.细胞通讯分析(CellChat):差异互作通路与配体/受体细胞识别

5.文章化交付:把 MR + 单细胞结果整理为 可投稿的主图叙事顺序 + 图注要点 + 结果段落模板

打开网易新闻 查看精彩图片

04

课程费用

  • 课程费用2880元,医咖会会员优惠价2500元,含直播授课+课程录屏反复回看和一对一指导答疑,含 讲义、代码、数据等完整资料包。

  • 七名全职的答疑助理,从早上八点到晚上十二点全天在线 ,365天全年无休的一对一答疑,实打实保证一对一指导的学习效率。

联系人:小咖3号

微信号:xys2019ykh

扫码添加小咖3号

05

课程收获

一、MR 提因果、单细胞给机制:把“相关”升级为“方向性证据”

课程核心思路是 eQTL–GWAS 的孟德尔随机化(MR)与scRNA-seq 单细胞定位/状态/互作的强组合:

1.MR 解决“到底是不是因果、方向是什么、证据强不强”;

2.单细胞解决“这个因果基因到底在哪类细胞、处于什么状态、通过什么互作通路影响疾病”。
3.最终形成审稿人最认可的“因果证据链 + 细胞机制落点”。

二、论文级作图与审稿逻辑:每张图都讲“怎么做 + 为什么这样做 + 怎么被追问也不怕”

1.除了把图画出来,更强调“图背后的统计与生物学逻辑”:
2.阈值怎么设、批次/混杂怎么处理、MR 的异质性/多效性怎么解释、单细胞注释怎么自证、通讯/轨迹怎么避免过度解读……让你不仅能跑通代码,还能深刻理解代码背后的基本原理。

三、从“只会跑差异/画热图”到“做出因果+机制闭环的公共数据库文章”

将亲手完成一篇纯生信公共数据库挖掘论文的全流程复现:从 GEO 多队列数据下载与清洗,到差异与富集、网络分析,再到eQTL–GWAS 孟德尔随机化(MR)建立方向性因果证据,最后用单细胞数据把因果基因落到具体细胞类型/状态/互作机制
1.不是做出一些结果,而是把每一步变成可交付的证据链:相关→因果→细胞定位→机制解释→主图呈现

2.学完能做到:看到一篇公共数据库文章,知道它的关键数据来源是什么、每张图背后的统计逻辑是什么、MR 怎么做才站得住、单细胞怎么做验证才不空泛,并且能把同样结构迁移到自己的疾病方向。

四、真正掌握公共数据库发文的顶刊核心方法体系

本次训练营的核心能力不是工具堆叠,而是建立一套可复用的方法框架:

多队列一致性验证体系:训练集发现 → 外部验证集复核 → 结果稳健性与可重复性

1.MR 因果推断体系:IV 筛选、LD 去相关、F-stat 强度、异质性/多效性/LOO 敏感性分析,形成“因果证据”而非“相关猜想”

2.机制补全体系:GSEA/通路、免疫浸润(ssGSEA/GSVA)、网络推断与关联分析,把结论写成“审稿人追问也不怕”的逻辑链

3.单细胞落地体系:把 MR 锁定的关键基因放回细胞层面,回答“哪类细胞在驱动?在什么状态变化?通过什么互作/通讯影响表型?

五、让没有实验条件的医生/博士,也能“独立做出可投稿的机制文章”

很多临床研究者的瓶颈不在于不会画图,而在于两件事:
1)结果容易停在“相关性”,缺乏说服力;
2)机制容易停在“泛泛解释”,缺少细胞层面的落点。

这门课会让你把公共数据真正用起来:

1.用MR把“关联”升级为“方向性因果证据”

2.用单细胞把“候选基因”落到“细胞类型—细胞状态—细胞互作”的机制链条

3.用规范化的出图与写作结构,把证据链做成审稿人一眼认可的主图级叙事

总结 :

  • 一套可复跑的工程化代码库(从下载到出图全链路)

  • 一套可迁移的“公共数据库发文模板”(换疾病/换表型也能快速复用)

  • 一套完整主图结果:MR 因果图 + 单细胞定位 + 通路/免疫/网络支撑图

  • 一套“从结果到论文叙事”的写作骨架:能把分析写成文章,而不是只留在PPT