孟德尔+单细胞全文复现（纯生信公共数据挖掘）|mirna|互作|孟德尔|细胞|表型|转录组

本次训练营面向的是《纯生信公共数据库挖掘”型论文复现与迁移》：不需要做任何湿实验、不依赖自建队列，只需从公开数据把研究做成一篇可发表的机制文章。我们将以公共 bulk转录组/单细胞数据 + GWAS/eQTL为核心，教你把“现象关联”升级为“因果证据”，把“群体层面的信号”落到“细胞类型与细胞状态”上，用一条清晰的证据链完成从选题到主图的全流程。

课程最核心的亮点是孟德尔随机化（MR）+ 单细胞（scRNA-seq）/细胞互作：先在公共转录组中筛出稳健候选，再通过eQTL–GWAS 的 MR建立“基因/暴露→疾病”的方向性因果关系，解决最头疼的“只是相关、说服力不够”的问题；随后把 MR 锁定的关键基因带入单细胞数据，完成细胞类型定位、表达分布、轨迹变化与细胞通讯，让结论从“一个基因可能有关”变成“哪个细胞在什么时候通过什么互作通路驱动表型”。

最终学员将获得一套可复制到任何疾病方向的公共数据库发文模板：MR 提因果、单细胞给机制、主图可交付，让没有实验条件也能做出审稿人认可的研究闭环。

论文介绍

本次复现的论文如下

https://www.sciencedirect.com/science/article/pii/S227458072500041X

课程特色

1. 纯公共数据库发文闭环：无实验也能做出“可投稿”的研究链路

不需要湿实验、不依赖自建队列，全程基于GEO等转录组数据 + IEU OpenGWAS/finngen 等结局数据 + eQTLGen 等 eQTL 数据 + 单细胞公开数据完成从选题到主图的闭环。重点教你把公共数据“挖深、挖实、挖出因果证据”，让临床医生/在读博士也能用公共数据做机制文章。

2. 全流程系统教学：从公共数据下载到主图交付的“保姆级模板工程”

不是零散技巧，而是完整工程化流程：数据下载→清洗与样本信息→差异/交集→富集与网络→MR（含敏感性）→模型验证（ROC等）→GSEA/免疫浸润→调控网络→单细胞注释/轨迹/通讯。配套可复跑代码模板、参数表、验收清单，确保每节课都有明确输出的图表。

3.AI赋能迁移到你自己的方向：从“复现一篇”到“复制一类文章”

课程交付的不只是这篇文章的复现结果，而是一套可迁移的“公共数据库发文框架”：换疾病、换组织、换表型，也能快速套用流程，形成你自己的可复用代码库与套路模板。后续做自己的课题时，遇到数据选择、MR 工具变量、单细胞验证、图形呈现等问题，都有针对性的迁移指导思路。

4.直播授课 + 录屏回看 + 长期答疑：

直播课实时互动、课后录屏反复看，资料包（代码/讲义数据/出图模板）全配齐；课程结束答疑不结束，后续自己数据分析过程中遇到问题也是一对一指导答疑，真正做到包教包会，学有所用做出更有价值的研究成果。

5.一对一指导 + 包教包会：

七名全职的答疑助理，从早上八点到晚上十二点全天在线，365天全年无休的一对一答疑，实打实保证一对一指导的学习效率。

课程结束答疑不结束，后续自己数据分析过程中遇到问题也是一对一指导答疑，确保学完能直接上手课题，让你真正学得会、用得上、挖掘公共数据库完成自己的科研成果。

课程时间

一个月系统教学，实打实包教包会

每周二、周四和周日晚19:00-22:00

共十五节课

十二节课程精讲，三节课答疑和总结

课程核心模块

第一节课：AI + 公共数据库发文范式解读：从“相关性堆结果”到“MR×单细胞的因果机制证据链”

基于 Deepseek 高效精读“公共数据库挖掘型论文”

用 Deepseek 快速拆解这类文章最核心的发文逻辑：为什么只靠公开数据也能写出“机制感”、怎样把多队列/多数据库拼成一条可信的证据链、创新点通常落在哪里（因果、机制落点、外部验证、可解释性）。

Deepseek 拆解论文叙事框架：一条可复用的“公共数据因果链”

从“提出临床/生物学问题”开始 → 公共转录组多队列发现与稳健验证 → 富集/网络锁定候选 →eQTL–GWAS MR 建立方向性因果（不是相关）→ 敏感性分析自证可靠 →单细胞定位到细胞类型/状态→ 轨迹/通讯补齐“谁在驱动、如何互作”的机制解释 → 形成可投稿的主图叙事闭环。

ChatGPT：把这套范式迁移到你的疾病方向（选题到主图规划）

现场示范如何用 ChatGPT 做“可发文选题设计”：
1）如何选合适的公共数据组合（表达队列/结局GWAS/eQTL/scRNA）
2）如何定义暴露与结局、提前规划 MR 的可行性（IV数量、组织匹配、方向）
3）如何把“MR结果”落到单细胞的验证任务（要看哪些细胞、哪些状态、哪些互作）

第二节课：公共数据处理和差异分析

1.从GEO数据库下载芯片数据，整理为训练集

2.下载RNAseq数据进行临床分组信息，整理为验证集表达矩阵

3.数据预处理：探针注释、重复基因合并、缺失处理

4.每个样本 QC、数据标准化和批次效应处理

5.limma包进行差异分析：得到表达差异 DEGs，作为候选基因

第三节课：功能富集与蛋白互作网络：PPI/关键节点筛选（“把故事讲成机制”）

1.多队列一致性验证：方向一致、显著性一致、可视化一致

2.GO、KEGG和Reactome 富集：显著通路筛选与可视化

3.GSEA 通路富集分析：从“基因列表”到“通路级解释”的转换

4.STRING 构建 PPI 网络：导出网络文件 + Cytoscape 可视化

5.网络关键节点（hub）与模块（cluster）筛选：构建“机制候基因”

形成“基因—通路—网络”三层证据材料

第四节课：eQTLGen数据库构建孟德尔随机化的工具变量（IVs）

1.从eQTLGen数据库下载Significant cis-eQTLs

2.阈值筛选与暴露显著相关的 SNP

3.进行连锁不平衡去相关，确保保留的 SNP 彼此独立

4.过滤弱工具变量，满足与暴露因子显著相关且与结局变量相互独立

第五节课：基于 eQTL 暴露与疾病 GWAS 多基因孟德尔随机化分析

1.将暴露数据与疾病结局数据统一转换为 outcome/exposure 标准格式

2.用 SNP 取暴露与结局的交集，生成 SNP 的结局数据表

3.每个基因对应的暴露子集做等位基因方向一致化

4.MR 分析并做异质性、多效性、单 SNP、留一法等敏感性检验

第六节课：筛选有意义的暴露因素和基因单独做孟德尔分析

1.读取 MR 的全量结果，只保留IVW 方法p值显著的结果

2.显著暴露再做OR 方向一致性筛选，确保同一暴露在不同方法下效应方向一致

3.多效性（pleiotropy）与异质性（heterogeneity）结果按照 p 值进行筛选

4.用最终 IVW 筛出的暴露（基因）列表反向过滤 eQTL 数据，得到“高可信 IV 集合”

5.筛选出有意义的基因后，单独对每个基因做孟德尔随机化分析

第七节课：诊断与预测能力验证：ROC/AUC + 多指标对比

1.单基因 ROC 与多基因联合 ROC：训练集 + 验证集 AUC 比较

2.交叉验证/重复抽样：避免偶然高 AUC 的伪结果

3.校准曲线与分层分析：不同亚组/不同批次下稳定性评估

4.Nomogram 构建与可解释输出：让临床读者看得懂、用得上

5.DCA 决策曲线：补齐临床净获益证据（文章结构更完整）

第八节课：机制挖掘一：单基因/核心基因的通路机制（GSEA / GSVA）

1.按核心基因表达分组构建比较框架

2.单基因 GSEA（KEGG/Hallmark）：输出标准化 NES、p.adjust、核心富集基因

3.GSVA 打分：把通路活性转成样本级矩阵，便于画图与统计

4.与临床分组/表型关联：把通路变化写成机制解释段落

5.输出核心基因→关键通路的主图级图组（GSEA曲线 + 通路热图等）

第九节课：机制挖掘二：免疫浸润与炎症环境（ssGSEA/多算法交叉验证）

1.免疫细胞基因集准备与 ssGSEA 打分（GSVA）

2.免疫细胞差异比较：疾病组 vs Control 分层比较

3.核心基因与免疫细胞相关：Spearman 相关 + 热图/散点回归

4.多算法交叉验证：xCell/EPIC/CIBERSORT 思路与结果一致性检查

5.输出基因—免疫—通路三联证据图，补齐审稿人常问的免疫解释

第十节课：调控与关联：ceRNA 网络 + 疾病/药物关联（公共数据库可完成）

1. miRNA 靶向预测（如 miRTarBase/TargetScan 思路）得到 miRNA–mRNA 对

2. lncRNA–miRNA 关联（如 starBase 思路）补齐上游调控

3.构建 lncRNA–miRNA–mRNA（ceRNA）网络：导出边表/节点表并可视化

4.疾病关联/证据补齐（如 CTD 思路）：核心基因与疾病关联排名展示

5.输出调控网络图 + 疾病关联图，让文章从结果变成更像机制论文

第十一节课：单细胞验证一：把 MR 基因落到具体的细胞类型上

1.下载单细胞数据与注释信息：建立可复用对象（Seurat 对象）

2.QC、归一化、高变基因、降维聚类：标准化流程与关键参数

3.细胞类型注释：marker 规则 + 自动注释（SingleR和ScType 思路）+ 人工校正

4.核心基因在细胞类型中的表达：FeaturePlot/VlnPlot/DotPlot

5.输出关键基因在哪些细胞表达、差异在哪些细胞最明显的主图证据

第十二节课：单细胞验证二：轨迹推断 + 细胞通讯（把机制写成谁驱动、如何互作）

1.选定关键细胞亚群：基于标记基因与表型差异进行聚焦

2.轨迹分析（Monocle2 和 3/scVelo）：状态转变与关键节点解释

3.核心基因沿轨迹变化：把因果基因接到状态变化上

4.细胞通讯分析（CellChat）：差异互作通路与配体/受体细胞识别

5.文章化交付：把 MR + 单细胞结果整理为可投稿的主图叙事顺序 + 图注要点 + 结果段落模板

课程费用

课程费用2880元，医咖会会员优惠价2500元，含直播授课+课程录屏反复回看和一对一指导答疑，含讲义、代码、数据等完整资料包。

七名全职的答疑助理，从早上八点到晚上十二点全天在线，365天全年无休的一对一答疑，实打实保证一对一指导的学习效率。

联系人：小咖3号

微信号：xys2019ykh

扫码添加小咖3号

课程收获

一、MR 提因果、单细胞给机制：把“相关”升级为“方向性证据”

课程核心思路是 eQTL–GWAS 的孟德尔随机化（MR）与scRNA-seq 单细胞定位/状态/互作的强组合：

1.MR 解决“到底是不是因果、方向是什么、证据强不强”；

2.单细胞解决“这个因果基因到底在哪类细胞、处于什么状态、通过什么互作通路影响疾病”。
3.最终形成审稿人最认可的“因果证据链 + 细胞机制落点”。

二、论文级作图与审稿逻辑：每张图都讲“怎么做 + 为什么这样做 + 怎么被追问也不怕”

1.除了把图画出来，更强调“图背后的统计与生物学逻辑”：
2.阈值怎么设、批次/混杂怎么处理、MR 的异质性/多效性怎么解释、单细胞注释怎么自证、通讯/轨迹怎么避免过度解读……让你不仅能跑通代码，还能深刻理解代码背后的基本原理。

三、从“只会跑差异/画热图”到“做出因果+机制闭环的公共数据库文章”

将亲手完成一篇纯生信公共数据库挖掘论文的全流程复现：从 GEO 多队列数据下载与清洗，到差异与富集、网络分析，再到eQTL–GWAS 孟德尔随机化（MR）建立方向性因果证据，最后用单细胞数据把因果基因落到具体细胞类型/状态/互作机制。
1.不是做出一些结果，而是把每一步变成可交付的证据链：相关→因果→细胞定位→机制解释→主图呈现。

2.学完能做到：看到一篇公共数据库文章，知道它的关键数据来源是什么、每张图背后的统计逻辑是什么、MR 怎么做才站得住、单细胞怎么做验证才不空泛，并且能把同样结构迁移到自己的疾病方向。

四、真正掌握公共数据库发文的顶刊核心方法体系

本次训练营的核心能力不是工具堆叠，而是建立一套可复用的方法框架：

多队列一致性验证体系：训练集发现 → 外部验证集复核 → 结果稳健性与可重复性

1.MR 因果推断体系：IV 筛选、LD 去相关、F-stat 强度、异质性/多效性/LOO 敏感性分析，形成“因果证据”而非“相关猜想”

2.机制补全体系：GSEA/通路、免疫浸润（ssGSEA/GSVA）、网络推断与关联分析，把结论写成“审稿人追问也不怕”的逻辑链

3.单细胞落地体系：把 MR 锁定的关键基因放回细胞层面，回答“哪类细胞在驱动？在什么状态变化？通过什么互作/通讯影响表型？”

五、让没有实验条件的医生/博士，也能“独立做出可投稿的机制文章”

很多临床研究者的瓶颈不在于不会画图，而在于两件事：
1）结果容易停在“相关性”，缺乏说服力；
2）机制容易停在“泛泛解释”，缺少细胞层面的落点。

这门课会让你把公共数据真正用起来：

1.用MR把“关联”升级为“方向性因果证据”

2.用单细胞把“候选基因”落到“细胞类型—细胞状态—细胞互作”的机制链条