关注生物学霸,每周更新科研干货哦

MEGA(Molecular Evolutionary Genetics Analysis)是分子进化分析专用集成软件,以图形化界面简化生物信息学分析流程,无需编程基础即可完成序列比对、进化树构建、遗传距离计算等核心操作,广泛应用于病毒溯源、物种分化、基因家族进化等研究领域。其核心优势在于:

  • 支持核苷酸 / 蛋白质序列全流程分析,功能覆盖从数据预处理到结果可视化;

  • 集成邻接法(NJ)、最大似然法(ML)等主流建树算法,适配不同研究需求;

  • 跨 Windows、MacOS、Linux 系统,且完全免费开源。

核心功能一:多序列比对

多序列比对是系统发育分析的前置核心步骤,需确保序列同源性区域对齐。MEGA 支持 ClustalW、MUSCLE 两种主流算法,以下以常用的 ClustalW 比对核苷酸序列为例:

  1. 数据准备:

  • 支持格式:优先使用 Fasta 格式(最通用),也支持 Clustal、GenBank 等格式;

  • 数据来源:可从 NCBI GenBank 数据库下载目标序列(主要有核酸序列和蛋白质序列),或使用实验室测序数据。此处以 TP53 蛋白序列为例,尽量选择大小相近的蛋白,然后在右上角的 send to 选择 FASTA 格式下载。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2. 详细比对步骤

  • 导入序列文件:点击主界面「File → Open a File/Session」,选择准备好的 Fasta 文件;

打开网易新闻 查看精彩图片

  • 在弹出窗口中选择 Align;

打开网易新闻 查看精彩图片

  • 然后进行序列规整,单击菜单【Alignment】→【Align by ClustalW】,弹出参数设置窗口,保持默认参数(新手推荐),关键参数说明:

Gap Opening Penalty:10(间隙打开罚分,数值越大越难出现间隙);

Gap Extension Penalty:0.2(间隙延伸罚分,数值越小间隙越长);

DNA Weight Matrix:IUB(核苷酸比对默认矩阵);

点击「OK」,等待比对完成(进度条显示,小规模序列需 1-3 分钟)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  • 比对结果检查与调整:比对完成后自动显示对齐的序列;

检查要点:

同源区域是否连续对齐(无大量错位间隙);

两端冗余序列是否过多(可手动裁剪);

手动调整:选中错位区域,右键选择「Delete」删除无效列。

  • 最后单击菜单【Data】→【Save Session】,保存序列比对的结果。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

核心功能二:系统发育树构建

MEGA 支持邻接法(NJ)、最大似然法(ML)、最小进化法(ME)等,其中邻接法(NJ)计算快、适用性广,适合新手入门;最大似然法(ML)精度更高,适合发表级分析。下面是具体操作步骤:

1. 把上面保存的 meg 文件拖拽到 MEGA 软件中。

打开网易新闻 查看精彩图片

2. 点击 Phylogeny—— 选择近邻法绘制进化树(Construct/Test Neighbor-Joining Tree),弹框选择 yes;

打开网易新闻 查看精彩图片

3. 参数设置(关键!影响建树可靠性):

弹出「Analysis Preferences」窗口,按以下推荐设置:

  • Test of Phylogeny:选择「Bootstrap method」(自举检验,评估分支可靠性),设置「Bootstrap replications」为 1000(推荐值,重复 1000 次检验,数值越高越可靠);

  • Model/Method:选择遗传距离模型,核苷酸序列推荐「Kimura 2-parameter」(K2P 模型,考虑碱基转换 / 颠换差异),蛋白质序列推荐「JTT」模型;

  • Rate among Sites:新手保持「Uniform rates」(均匀速率,复杂分析可选 Gamma 分布);

  • Gaps/Missing Data:选择「Pairwise deletion」(成对删除含缺失数据的位点,保留更多有效数据);

点击「OK」开始计算。

打开网易新闻 查看精彩图片

4. 结果解读与可视化:

计算完成后自动弹出结果窗口,显示 NJ 树,可以在上方选择树的样式,例如绘制一个圆形的树,或一个经典的树:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

核心元素解读:

  • 叶节点:代表输入的物种 / 序列(标注名称与 accession 号);

  • 内部节点:代表推测的共同祖先;

  • 分支长度:表示进化距离(数值越小亲缘关系越近);

  • Bootstrap 值:分支上的数字(0-100),≥70 表示该分支可靠性高;

5. 结果保存:(适配期刊要求)

  • 导出树形文件:点击「File → Export Current Tree」,选择:

打开网易新闻 查看精彩图片

Newick 格式(*.nwk):用于其他软件(如 FigTree)进一步编辑;

MEGA 格式(*.mts):保存当前会话,便于后续修改。

  • 导出图片:点击 Image,选择高分辨率格式,推荐 PNG(300 DPI)或 TIFF(600 DPI,发表首选);

打开网易新闻 查看精彩图片

常见问题与避坑指南(Q&A)

1. 序列比对乱序,无法建树?

可能原因:序列同源性过低(<50%)或格式错误;

解决方法:

① 用 NCBI BLAST 验证序列同源性,剔除异源序列;

② 检查 Fasta 格式,确保每个序列的「>」后无空格,序列无换行错误。

2. Bootstrap 值普遍偏低(<50)?

可能原因:序列长度过短、样本量不足或比对质量差;

解决方法:① 增加序列长度(≥500bp);

② 补充近缘物种序列;

③ 重新优化比对(删除冗余间隙列)。

3. 建树时提示 「内存不足」?

可能原因:序列数量过多(>100 条)或序列过长;

解决方法:① 分批次分析,先构建核心物种树;

② 关闭其他软件释放内存;

③ 选择计算更快的 NJ 法替代 ML 法。

4. 如何选择遗传距离模型?

核苷酸序列:默认 K2P 模型(通用),若 GC 含量差异大,选 GTR 模型;

蛋白质序列:默认 JTT 模型,若含跨物种序列,选 WAG 模型;

5. 打开 FASTA 文件后,序列名称只显示一部分是什么原因?

可能原因:这是 MEGA 的默认设置,序列名称会显示到第一个空格为止。

解决方法:无需修改文件,点击软件中 「display -> show full sequence names」 选项,即可显示完整的序列名称,避免因名称显示不全误判序列。

6. 报错「Error: MEGA has detected duplicate taxa labels」 该如何处理?

可能原因:该报错是样本分类单元标签重复导致软件无法区分不同样本。

解决方法:提前检查序列文件中所有样本的名称,确保每个标签唯一,可通过添加序号、物种亚种信息等方式修改重复标签,修改后重新导入数据即可。

现添加下方企微,任何实验相关问题都可以咨询哦

小编真人在线热情回复!

题图来源:自制

编辑:冷漠小 z