本次训练营面向的是《纯生信公共数据库挖掘”型论文复现与迁移》:不需要做任何湿实验、不依赖自建队列,只需从公开数据把研究做成一篇可发表的机制文章。我们将以公共 bulk转录组/单细胞数据 + GWAS/eQTL为核心,教你把“现象关联”升级为“因果证据”,把“群体层面的信号”落到“细胞类型与细胞状态”上,用一条清晰的证据链完成从选题到主图的全流程。
课程最核心的亮点是孟德尔随机化(MR)+ 单细胞(scRNA-seq)/细胞互作:先在公共转录组中筛出稳健候选,再通过eQTL–GWAS 的 MR建立“基因/暴露→疾病”的方向性因果关系,解决最头疼的“只是相关、说服力不够”的问题;随后把 MR 锁定的关键基因带入单细胞数据,完成细胞类型定位、表达分布、轨迹变化与细胞通讯,让结论从“一个基因可能有关”变成“哪个细胞在什么时候通过什么互作通路驱动表型”。
最终学员将获得一套可复制到任何疾病方向的公共数据库发文模板:MR 提因果、单细胞给机制、主图可交付,让没有实验条件也能做出审稿人认可的研究闭环。
论文介绍
本次复现的论文如下
https://www.sciencedirect.com/science/article/pii/S227458072500041X01
课程特色
1. 纯公共数据库发文闭环:无实验也能做出“可投稿”的研究链路
不需要湿实验、不依赖自建队列,全程基于GEO等转录组数据 + IEU OpenGWAS/finngen 等结局数据 + eQTLGen 等 eQTL 数据 + 单细胞公开数据完成从选题到主图的闭环。重点教你把公共数据“挖深、挖实、挖出因果证据”,让临床医生/在读博士也能用公共数据做机制文章。
2. 全流程系统教学:从公共数据下载到主图交付的“保姆级模板工程”
不是零散技巧,而是完整工程化流程:数据下载→清洗与样本信息→差异/交集→富集与网络→MR(含敏感性)→模型验证(ROC等)→GSEA/免疫浸润→调控网络→单细胞注释/轨迹/通讯。配套可复跑代码模板、参数表、验收清单,确保每节课都有明确输出的图表。
3.AI赋能迁移到你自己的方向:从“复现一篇”到“复制一类文章”
课程交付的不只是这篇文章的复现结果,而是一套可迁移的“公共数据库发文框架”:换疾病、换组织、换表型,也能快速套用流程,形成你自己的可复用代码库与套路模板。后续做自己的课题时,遇到数据选择、MR 工具变量、单细胞验证、图形呈现等问题,都有针对性的迁移指导思路。
4.直播授课 + 录屏回看 + 长期答疑:
直播课实时互动、课后录屏反复看,资料包(代码/讲义数据/出图模板)全配齐;课程结束答疑不结束,后续自己数据分析过程中遇到问题也是一对一指导答疑,真正做到包教包会,学有所用做出更有价值的研究成果。
5.一对一指导 + 包教包会:
七名全职的答疑助理,从早上八点到晚上十二点全天在线 ,365天全年无休的一对一答疑,实打实保证一对一指导的学习效率。
课程结束答疑不结束,后续自己数据分析过程中遇到问题也是一对一指导答疑,确保学完能直接上手课题,让你真正学得会、用得上、挖掘公共数据库完成自己的科研成果。
02
课程时间
一个月系统教学,实打实包教包会
每周二、周四和周日晚19:00-22:00
共十五节课
十二节课程精讲,三节课答疑和总结
03
课程核心模块
第一节课:AI + 公共数据库发文范式解读:从“相关性堆结果”到“MR×单细胞的因果机制证据链”
基于 Deepseek 高效精读“公共数据库挖掘型论文”
用 Deepseek 快速拆解这类文章最核心的发文逻辑:为什么只靠公开数据也能写出“机制感”、怎样把多队列/多数据库拼成一条可信的证据链、创新点通常落在哪里(因果、机制落点、外部验证、可解释性)。
Deepseek 拆解论文叙事框架:一条可复用的“公共数据因果链”
从“提出临床/生物学问题”开始 → 公共转录组多队列发现与稳健验证 → 富集/网络锁定候选 →eQTL–GWAS MR 建立方向性因果(不是相关)→ 敏感性分析自证可靠 →单细胞定位到细胞类型/状态→ 轨迹/通讯补齐“谁在驱动、如何互作”的机制解释 → 形成可投稿的主图叙事闭环。
ChatGPT:把这套范式迁移到你的疾病方向(选题到主图规划)
现场示范如何用 ChatGPT 做“可发文选题设计”:
1)如何选合适的公共数据组合(表达队列/结局GWAS/eQTL/scRNA)
2)如何定义暴露与结局、提前规划 MR 的可行性(IV数量、组织匹配、方向)
3)如何把“MR结果”落到单细胞的验证任务(要看哪些细胞、哪些状态、哪些互作)
第二节课:公共数据处理和差异分析
1.从GEO数据库下载芯片数据,整理为训练集
2.下载RNAseq数据进行临床分组信息,整理为验证集表达矩阵
3.数据预处理:探针注释、重复基因合并、缺失处理
4.每个样本 QC、数据标准化和批次效应处理
5.limma包进行差异分析:得到表达差异 DEGs, 作为候选基因
第三节课:功能富集与蛋白互作网络:PPI/关键节点筛选(“把故事讲成机制”)
1.多队列一致性验证:方向一致、显著性一致、可视化一致
2.GO、KEGG和Reactome 富集:显著通路筛选与可视化
3.GSEA 通路富集分析:从“基因列表”到“通路级解释”的转换
4.STRING 构建 PPI 网络:导出网络文件 + Cytoscape 可视化
5.网络关键节点(hub)与模块(cluster)筛选:构建“机制候基因”
形成“基因—通路—网络”三层证据材料
第四节课:eQTLGen数据库构建孟德尔随机化的工具变量(IVs)
1.从eQTLGen数据库下载Significant cis-eQTLs
2.阈值筛选与暴 露显著相关的 SNP
3.进行 连锁不平衡去相关,确保保留的 SNP 彼此独立
4.过滤弱工具变量, 满足与暴露因子显著相关且与结局变量相互独立
第五节课:基于 eQTL 暴露与疾病 GWAS 多基因孟德尔随机化分析
1.将暴露数据与疾病结局数据统一转换为 outcome/exposure 标准格式
2.用 SNP 取暴露与结局的交集,生成 SNP 的结局数据表
3.每个基因对应的暴露子集做等位基因方向一致化
4.MR 分析并做异质性、多效性、单 SNP、留一法等敏感性检验
第六节课:筛选有意义的暴露因素和基因单独做孟德尔分析
1.读取 MR 的全量结果,只保留IVW 方法p值显著的结果
2.显著暴露再做OR 方向一致性筛选,确保同一暴露在不同方法下效应方向一致
3.多效性(pleiotropy)与异质性(heterogeneity)结果按照 p 值进行筛选
4.用最终 IVW 筛出的暴露(基因)列表反向过滤 eQTL 数据,得到“高可信 IV 集合”
5.筛选出有意义的基因后,单独对每个基因做孟德尔随机化分析
第七节课:诊断与预测能力验证:ROC/AUC + 多指标对比
1.单基因 ROC 与多基因联合 ROC:训练集 + 验证集 AUC 比较
2.交叉验证/重复抽样:避免偶然高 AUC 的伪结果
3.校准曲线与分层分析:不同亚组/不同批次下稳定性评估
4.Nomogram 构建与可解释输出:让临床读者看得懂、用得上
5.DCA 决策曲线:补齐临床净获益证据(文章结构更完整)
第八节课:机制挖掘一:单基因/核心基因的通路机制(GSEA / GSVA)
1.按核心基因表达分组构建比较框架
2.单基因 GSEA(KEGG/Hallmark):输出标准化 NES、p.adjust、核心富集基因
3.GSVA 打分:把通路活性转成样本级矩阵,便于画图与统计
4.与临床分组/表型关联:把通路变化写成 机制解释段落
5.输出 核心基因→关键通路 的主图级图组(GSEA曲线 + 通路热图等)
第九节课:机制挖掘二:免疫浸润与炎症环境(ssGSEA/多算法交叉验证)
1.免疫细胞基因集准备与 ssGSEA 打分(GSVA)
2.免疫细胞差异比较:疾病组 vs Control 分层比较
3.核心基因与免疫细胞相关:Spearman 相关 + 热图/散点回归
4.多算法交叉验证:xCell/EPIC/CIBERSORT 思路与结果一致性检查
5.输出 基因—免疫—通路 三联证据图,补齐审稿人常问的免疫解释
第十节课:调控与关联:ceRNA 网络 + 疾病/药物关联(公共数据库可完成)
1. miRNA 靶向预测(如 miRTarBase/TargetScan 思路)得到 miRNA–mRNA 对
2. lncRNA–miRNA 关联(如 starBase 思路)补齐上游调控
3.构建 lncRNA–miRNA–mRNA(ceRNA)网络:导出边表/节点表并可视化
4.疾病关联/证据补齐(如 CTD 思路):核心基因与疾病关联排名展示
5.输出 调控网络图 + 疾病关联图 ,让文章从 结果 变成 更像机制论文
第十一节课:单细胞验证一:把 MR 基因落到具体的细胞类型上
1.下载单细胞数据与注释信息:建立可复用对象(Seurat 对象)
2.QC、归一化、高变基因、降维聚类:标准化流程与关键参数
3.细胞类型注释:marker 规则 + 自动注释(SingleR和ScType 思路)+ 人工校正
4.核心基因在细胞类型中的表达:FeaturePlot/VlnPlot/DotPlot
5.输出 关键基因在哪些细胞表达、差异在哪些细胞最明显 的主图证据
第十二节课:单细胞验证二:轨迹推断 + 细胞通讯(把机制写成 谁驱动、如何互作 )
1.选定关键细胞亚群:基于标记基因与表型差异进行聚焦
2.轨迹分析(Monocle2 和 3/scVelo):状态转变与关键节点解释
3.核心基因沿轨迹变化:把因果基因接到状态变化上
4.细胞通讯分析(CellChat):差异互作通路与配体/受体细胞识别
5.文章化交付:把 MR + 单细胞结果整理为 可投稿的主图叙事顺序 + 图注要点 + 结果段落模板
04
课程费用
课程费用2880元,医咖会会员优惠价2500元,含直播授课+课程录屏反复回看和一对一指导答疑,含 讲义、代码、数据等完整资料包。
七名全职的答疑助理,从早上八点到晚上十二点全天在线 ,365天全年无休的一对一答疑,实打实保证一对一指导的学习效率。
联系人:小咖3号
微信号:xys2019ykh
扫码添加小咖3号
05
课程收获
一、MR 提因果、单细胞给机制:把“相关”升级为“方向性证据”
课程核心思路是 eQTL–GWAS 的孟德尔随机化(MR)与scRNA-seq 单细胞定位/状态/互作的强组合:
1.MR 解决“到底是不是因果、方向是什么、证据强不强”;
2.单细胞解决“这个因果基因到底在哪类细胞、处于什么状态、通过什么互作通路影响疾病”。
3.最终形成审稿人最认可的“因果证据链 + 细胞机制落点”。
二、论文级作图与审稿逻辑:每张图都讲“怎么做 + 为什么这样做 + 怎么被追问也不怕”
1.除了把图画出来,更强调“图背后的统计与生物学逻辑”:
2.阈值怎么设、批次/混杂怎么处理、MR 的异质性/多效性怎么解释、单细胞注释怎么自证、通讯/轨迹怎么避免过度解读……让你不仅能跑通代码,还能深刻理解代码背后的基本原理。
三、从“只会跑差异/画热图”到“做出因果+机制闭环的公共数据库文章”
将亲手完成一篇纯生信公共数据库挖掘论文的全流程复现:从 GEO 多队列数据下载与清洗,到差异与富集、网络分析,再到eQTL–GWAS 孟德尔随机化(MR)建立方向性因果证据,最后用单细胞数据把因果基因落到具体细胞类型/状态/互作机制。
1.不是做出一些结果,而是把每一步变成可交付的证据链:相关→因果→细胞定位→机制解释→主图呈现。
2.学完能做到:看到一篇公共数据库文章,知道它的关键数据来源是什么、每张图背后的统计逻辑是什么、MR 怎么做才站得住、单细胞怎么做验证才不空泛,并且能把同样结构迁移到自己的疾病方向。
四、真正掌握公共数据库发文的顶刊核心方法体系
本次训练营的核心能力不是工具堆叠,而是建立一套可复用的方法框架:
多队列一致性验证体系:训练集发现 → 外部验证集复核 → 结果稳健性与可重复性
1.MR 因果推断体系:IV 筛选、LD 去相关、F-stat 强度、异质性/多效性/LOO 敏感性分析,形成“因果证据”而非“相关猜想”
2.机制补全体系:GSEA/通路、免疫浸润(ssGSEA/GSVA)、网络推断与关联分析,把结论写成“审稿人追问也不怕”的逻辑链
3.单细胞落地体系:把 MR 锁定的关键基因放回细胞层面,回答“哪类细胞在驱动?在什么状态变化?通过什么互作/通讯影响表型?”
五、让没有实验条件的医生/博士,也能“独立做出可投稿的机制文章”
很多临床研究者的瓶颈不在于不会画图,而在于两件事:
1)结果容易停在“相关性”,缺乏说服力;
2)机制容易停在“泛泛解释”,缺少细胞层面的落点。
这门课会让你把公共数据真正用起来:
1.用MR把“关联”升级为“方向性因果证据”
2.用单细胞把“候选基因”落到“细胞类型—细胞状态—细胞互作”的机制链条
3.用规范化的出图与写作结构,把证据链做成审稿人一眼认可的主图级叙事
总结 :
一套可复跑的工程化代码库(从下载到出图全链路)
一套可迁移的“公共数据库发文模板”(换疾病/换表型也能快速复用)
一套完整主图结果:MR 因果图 + 单细胞定位 + 通路/免疫/网络支撑图
一套“从结果到论文叙事”的写作骨架:能把分析写成文章,而不是只留在PPT
热门跟贴