关于物种的起源：如何诊断共生培养中表达序列的起源？|共生培养|宿主|植物|表达序列|转录本

文|夙夜玖歌

编辑|夙夜玖歌

前言

自动化DNA测序技术使得通过表达序列标签快速生成和分析生物体中表达的基因转录本成为可能。这一信息有助于识别那些在特定发育阶段和特定组织或器官中表达的基因。从ESTs 中也可以快速收集到治疗干预的新基因产物和靶标线索。通过这种方法，也可以更详细地了解共生体之间的分子相互作用，无论是致病性的还是互惠性的。

对于从相互作用的共生体中分离出来的序列，由于不知道哪个物种表达了序列，确定其细胞作用是复杂的。我们将这个挑战称为“问题”：给定一个序列x在物种a和物种B之间的相互作用中表达，x是起源于物种a还是物种B？各种各样的解决方案很容易想到，每一种都有优点和缺点。

在这里展示一个单词计数的比较词汇分析，以前用于检测测序项目中的文库污染，为推断一个转录本的起源物种提供了一个强大的计算基础。

在实验中，人们可以尝试通过将一个克隆与两个物种的基因组DNA杂交，并确定探针与哪个目标杂交来解决这个问题。这种方法可以产生非常可靠的结果。然而，如果一个序列在两个类群中高度保守，杂交严格条件会显著影响结果。对于高通量EST序列分析，杂交源验证在时间和试剂方面都是不切实际的。作为体外杂交的替代方法，有几种计算解决方案是可能的。

如果两个物种的基因组序列完全确定，就可以简单地使用序列相似性搜索。然而，大多数植物宿主及其微生物共生体只有很少或没有基因组序列数据，这使得这种方法非常不可靠。与一个生物体的序列的强烈相似性并不排除在其他物种中存在类似序列的可能性。基于这些部分知识的结论是有用的，但可能具有误导性的。

密码子在类群中的密码子使用情况不同，利用这一事实似乎是一个可行的解决方案，因为它已被证明适用于预测基因组DNA中外显子中内含子的存在。然而，这真的是不实用的，因为需要知道将信使RNA翻译成氨基酸的阅读框。

EST数据的质量是众所周知的不可靠，有时有大量的模糊碱基，有时有单个碱基对的插入或删除，从而破坏阅读框。Word计数不太容易出现这些错误来源，它通过在滑动窗口中计算密码子对作为六聚体来使用密码子使用偏差中的内在信息，而密码子则在不重叠的平铺窗口中读取。

在下面详细的实验中，对起源和功能已知的序列进行单词计数方法，然后将其与诊断GC含量分布序列起源的能力进行比较。我们研究了疫霉属植物和植物寄主之间的致病性相互作用序列，然后将单词计数方法应用于两个微生物共生菌根菌和球菌的序列。

结果

当对已知来源的序列进行测试时，单词计数方法通常相当可靠，50例中有3例错误；来自疫霉的磷酸转运体和来自疫霉的植物诱导基因被误认为植物序列。这表明，在一个转录本来源于植物宿主的零假设下，失败率为6%，均为假阴性。该方法的性能没有变化受分离的序列来源是mRNA还是DNA分子的影响，如标记为“mRNA”的柱所示？

在三个研究案例中，GC含量的分布大致正常，即无菌大豆磷酸菌培养物的分布。对于来自受感染植物培养物的序列，有明显的双峰分布。在927个受感染的G. max序列中，约25%的GC含量低于50%；其中大多数可能是植物转录本。这比无菌大豆培养要多得多，其中不到5%的菌丝和游动孢子分离株的GC含量小于50%。

累积分布函数的几个特性值得评论，以帮助解释从单词差异比较中得到的相似图。一个分布的中位数发生在该函数达到累积概率为0.5的地方。所有三个P. sojae文库的中位数都是相似的，GC的变化小于4%。分布的其他矩很明显；方差与函数的中值处的斜率成反比。累积分布函数的一个有用的特性是，y轴上的任何一个点都给出了曲线下的积分面积。我们利用这个特性来建立实验范围内的假阳性和假阴性率。在此情况下，分别为α = 0.088和β = 0.032。

六聚体差异测试的校准曲线，植物的实黑线和链链训练序列的虚线近似正态。中位数差异很大，在两个分布的尾部为零的尾部只有大约10%的重叠。叠加的是来自P. sojae测试集的比较曲线，它们与图1b中的GC含量曲线平行，但方差略小。在六聚体组成上，无菌序列明显更像链球菌，而不是植物，除了一小部分外，其余序列的t值都为正。混合文库中植物样序列与GC含量一样丰富，约为23%。与预期的一样，两种方法都一致，GC和t的值呈正相关。

在三种情况下，比较植物和微生物共生训练集的校准曲线有良好的分离和最小的重叠，但对于由接合菌和壶菌组成的训练集B2则没有，它们与植物有相当大的重叠。相关的错误率为α = 0.126和β = 0.207。植物与细菌比较时，错误率分别为α = 0.052和β = 0.084，远低于植物与真菌比较时的错误率。

配对不同值更详细地显示了哪些序列或多或少像植物和共生体。来自交互库和纯植物根培养的序列一起进行比较。与两个训练集的不同程度有很大的差异是明显的，这在很大程度上是由于测试集内序列长度的变化。

大部分序列位于同一性函数之上，与微生物共生体更接近植物宿主。菌根测试序列比与根瘤菌或致病关联的序列更难区分，从菌根比较中身份功能的变异减少，与比较被病原体感染和结瘤的根库。所有截枝杆菌和混合培养转录本的分析结果可以作为额外的数据文件在线获得，根据转录本测序库分组，并从最不类似植物的转录本分类到最类似植物的转录本

显然，单词计数方法为已知可信度的源识别问题提供了一个可靠的解决方案，并有几个显著的优势。该方法的可靠性具有良好的验证试验结果，并与GC含量分析进一步一致。在预先已知正确答案的测试用例中，结果在训练集重叠的预期错误率范围内是正确的。

与GC内容不同的是，这个问题可以通过阈值t = 0的字数来解决，并且具有统计的严谨性，因为一组比较的假阳性和阳性率很容易从两者之间不同的累积分布中计算出来训练集。当使用似然比检验统计量时，确保最优统计能力，如皮尔逊-内曼定理所证明。

此外，单词计数不只需要对被比较的物种进行训练。相反，训练集与正在比较序列的物种相关，但不一定是同源的，这就足够了。来自疫霉属的几种植物的序列与植物和细菌序列正确区分，其中3个基因被正确鉴定为代表细菌序列。

P.sojae感染的G. max文库在六聚体组成和GC含量方面提供了一个清晰的例子，导致容易诊断的来源。并不是每一个案例都这么简单。为了使这两个物种之间出现明显的分离，这两个物种必须在组成上有所不同，并且必须将每个物种的可检测比例的转录本出现在文库中。为了被检测到，来自特定物种的转录本的比例必须大于从校准曲线中获得的错误率。

虽然这些标准对感染的G. max文库是正确的。在医学蚜相互作用库中，可能期望与大豆相同的双峰分布。然而，这两个库的编写方式却有所不同。在感染后2天，利用敏感植物宿主菌株制备大豆杆菌感染文库，以最大限度地增加宿主组织中存在的病原体转录本数量。

此外，用游动孢子悬液直接感染G. max下胚轴组织。相比之下，感染真菌感染库是在感染后10天制备的，单株植物的敏感程度不同。植物也以不同的方式接种：将地面菌丝溶解在无菌水中孵育，然后将产生的接种物移液到土壤表面，而不是植物表面。这些在文库制备前的组织培养方式的差异可能产生了不同数量的植物转录本，尽管这两个文库都是从感染了疫霉的植物组织中制备的。

对于菌根根文库，可以将共生体序列的相对缺乏简单地解释为，由于在宿主组织中相对缺乏转录本，菌根根系的生物量主要为植物生物量。因此可以认为其中的大多数转录本来源于植物宿主。

与这一结果相混淆的是，在进行的所有比较中，该比较的错误率最大，很可能是因为真菌和植物之间的进化距离在比较中最小。此外，接合菌的蛋白质编码序列在GenBank中非常罕见，这导致了对这些真菌的一个小的训练集，并可能放大了任何偏差。高的假阴性率可能导致未能检测到一些共生转录本。

这些观察结果值得进一步的实验研究。被确定为最像和最不像植物或共生体的转录本也可以作为共生体的候选参与者进行更详细的研究。

共生的相互作用，无论是致病的还是互惠的，给植物宿主和研究它们的生物学家提出了新的挑战。

方法和材料的培训顺序

为了诊断在共生培养中表达序列的起源物种，从GenBank数据库中收集了由不同的EST测序项目生成的序列。序列从致病性相互作用源于文化的疫霉菌属植物宿主，如大豆和大豆分离接种下胚轴感染后两天和医学和树干分离根感染后10天后。在互惠相互作用中表达的序列来自树干和菌根或根瘤菌内共生体。在大豆菌丝和游动孢子和无菌、未接种的大豆根中表达的序列为没有外来转录本的比较提供了基础。

为了最大限度地提高诊断比较的可靠性，筛选高质量的训练序列，以及与大肠杆菌、叶绿体和线粒体基因以及非编码RNA转录本的低相似性的测试序列。

独立的BLASTN比较发现，这些序列与载体序列具有非常高的相似性，或与从GenBank中获得的非核或非编码序列具有中等较高的相似性。这样识别的序列被不进行分析。

盐基含量

编写一个PERL程序，该程序计算了一个序列的GC碱基含量，作为一个序列中所有明确的核苷酸中鸟嘌呤和胞嘧啶残基的部分。R中的hist方法，版本1.1.1将连续百分比聚集成离散的直方图箱，使用GC差异为2%的箱大小，包括下箱边界和唯一的上界；lm方法检验了不相似性检验统计量t与GC的线性相关性。

虽然概率检验统计量表明了与A或B的相似性的大小，但我们不知道在已知的置信度下，t的什么值是显著的。在检验假设时，可以犯两种类型的错误：I型或假阳性，以及II型或假阴性。假阳性率为α，假阳性率为β。我们从校准曲线中的重叠来确定α和β。

从校准曲线推断错误率是合理的，因为知道正确的答案，并通过重新采样来确定错误率，就像用引导方法来推断错误率或置信区间一样。

我们感兴趣的是知道哪个序列来自两个生物体，并有理由相信它来自其中一个或另一个。因此假设它来自于一个假设，并测试是否有证据来反驳这个假设。这里的零假设是序列x来自 A. 或者，它可能是来自 B. 评估在t = 0处的校准曲线重叠可以量化相关的错误率。

分类单元B的累积分布函数（cdf）指定了cdfB与0相交的β；A中的cdf将α指定为1-cdfA(0)。因此，可以用已知的置信度P： P（t > 0）= α来解决这个问题。所有其他计算均按照前面所述的[19]执行。软件用于词汇分析通过匿名ftp从TIGR软件ftp网站获得。

结论

大多数生物体已经发展出了识别并与其他物种相互作用的方法。共生相互作用从致病到互惠。一些种间相互作用的分子机制已经很清楚，但仍有许多有待发现。

来自相互作用的共生体培养物的表达序列标签（ESTs）可以帮助识别调节共生体的转录本，但对功能分析提出了一个独特的挑战。给定一个在两个共生体之间的相互作用中表达的序列，挑战是确定转录本来自哪个生物体。对于相互作用培养的高通量测序，需要一种可靠的计算方法。先前对GC核苷酸含量和比较相似性搜索的研究提供了临时的解决方案，但比较词汇分析，即使用六聚体计数的似然比检验，更强大。