代谢组学是对生物体某一特定组分所包含的所有代谢物进行定性及定量分析,并研究该代谢组在外界干预或疾病生理条件下动态变化规律的一门学科。代谢组学是一门交叉性极强的学科,我们经常讲,代谢组学是用物理学原理的设备,检测化学原理的化合物,然后通过计算统计学,分析生物学机理,最终阐述医学等各种现象,真的是相当的复杂。
亮哥从事代谢组学检测分析工作十几年,从不懂到懂一点,也是有非常漫长的过程。然而最近看一些文章,听一些报告,和客户朋友聊一些天,发现大家对代谢组学研究依然有很多误区。故而总结这十大误区供大家讨论及参考:
最近有朋友来跟我探讨,说自己做的广泛靶标代谢组学数据投稿一个一区的知名期刊,被拒了,Reviewer质疑没有标准品物质定性的可靠性。不是听说广泛靶标技术采用的是MRM技术,号称定量的“黄金标准”,不需要用标准品做验证实验吗?
吃瓜群众表示被拒稿是家常便饭,但不清楚什么是广泛靶标代谢组学技术?
据公开资料显示,广泛靶标代谢组学 (Widely Targeted Metabolomics) 概念最早是由日本科学家Masami Yokota Hirai在2009年提出[1],随后,在2013年华中农业大学罗杰教授提出了广泛靶向代谢(Widely Targeted Metabolites) [2]、同期,大连物化所许国旺研究员提出了拟靶向代谢组学(Pseudotargeted metabolomics) [3]、以及2018年中科院朱正江研究员提出了SWATHtoMRM [4]等,这些研究都是采用相同或类似的技术路线,不断对其进行深化和完善。
众所周知,基于高分辨质谱的非靶标代谢组学分辨率高,通量高,但受限于灵敏度和动态范围。而基于低分辨三重四极杆质谱的靶标代谢组学动态范围宽,灵敏度高,但受限于分辨率及通量。
广泛靶标代谢组学技术本质上是一种介于非靶标代谢组学技术与传统靶标代谢组学技术之间的一种解决方案。其采用传统靶标多反应监测(multiple reaction monitoring, MRM)的采集方式,通过优化色谱及质谱参数,最大限度的采集不同离子对的信息,实现广泛的物质覆盖,提高了检测的通量。离子对的信息通常来源于真实的标准品、数据库或者样品非靶代谢组学的谱图数据。
如果把基于色谱质谱联用技术的非靶标代谢组学检测技术比作在大海里“网鱼”的话,那么基于MRM的靶标代谢组学则像是拿着鱼竿在海里有目标的钓鱼,在“钓鱼”之前会根据“鱼”的特征使用不同的“鱼饵”,在MRM靶标实验中就是我们常说的离子对信息,就可以有针对性地对样品中特定的物质进行检测了。
为了提高“钓鱼”的通量,广泛靶标代谢组学技术被开发出来,其好比同时采用很多的“鱼竿”进行靶向性的捕获(当然也是有理论上限的),最大程度的保留了靶标代谢组学的靶向性,同时将通量提高到一个可观的程度,然而由于成本等因素的限制,其省去了用标准品复核每个物质,以及建标准曲线进行绝对定量的过程,所以得到的也是相对定量的结果。
我们通常说基于MRM采集方式的靶标代谢组学技术是定量检测的“黄金标准”,这是有附加条件的。主要包括准确的色谱保留时间(常规靶标通常使用同位素标准品)和采用多个离子对信息。
广泛靶标代谢组学为了突破检测通量的天花板,通常使用预测或参考的色谱保留时间(如非靶的保留时间或标准品的保留时间)以及减少检测时所使用离子对的数量的方式,来提高检测的通量。这样,因为“鱼饵”不够精准,自然而然,“钓错鱼”的现象也是不可避免的。
那么,假设一个15min正负离子切换模式采集的广泛靶标,它的通量理论上限是多少呢?
我先记住一组公式,下面的计算会用到:
假设我们采集的峰宽是0.25min(也就是15s),一个峰采集20个点(一般至少15个点才能形成一个线型比较好的峰,当然也不能太多点,不然容易形成毛刺峰),那么一个峰就需要20个采集的cycle(采集循环),每个cycle time(循环时间)是15000ms/20=750ms。每个cycle中有多个transition决定了最终能采集多少个物质。
如果dwell time(驻留时间)为5ms,加上5ms的pause time(离子切换时间),以及2次5ms的正负切换时间,这已经是非常优秀的性能了,那么一个cycle能采集的transition数为(750-10)/10=74,也就说我们最多只能测74/2=37个化合物(一个化合物采用2个子离子,通常一个离子定性,一个离子定量)。
如果要检测更多的化合物怎么办呢?这时可以依据保留时间设置period(采集窗口),在一个特定的period内,可以只采集指定的MRM离子对。比如上述15min的采集总时间,如果分成3个periods,那么可以采集74*3=222个transitions,如果分成5个periods,那就可以采集74*5=370个transitions,以此类推。理论上15min的采集总时间,最多可以设置15min/0.25min=60个periods。然而,60个实在太多了,我们不可能那么精准的知道每个period中应该放什么离子,如果放错了就检测不到了。实际工作中,我们往往把峰宽设置放大,比如设置成30s,那么每个cycle能放置的transitions会变多一倍,但相应的periods会减少。
还有一种做法就是用ScheduleMRM的方法,有些仪器公司叫动态MRM,它是给每个transitions赋予一个保留时间rt,然后设置一个MRM检测窗口,比如±15s,在rt±15s的窗口内,它只检测我们设置的transitions,这样可以大大减少单位时间内真正要检测的transitions数,而且不会像period那样有一个明显的窗口范围限制。当然这两者也可以结合起来使用。
那么理论上,全程15min能采集的transition数为74*60=4440个,事实上,如果只采用一个period,仪器软件的上限是4000个transitions,如果一个物质采用至少2个transitions,那么理论上限为4440/2=2220个物质。这相比非靶标代谢组学上万个peaks(很遗憾,目前能鉴定注释的只有20-30%)依然相差甚远。
当然实际情况下,一个period中不可能设置的这么满,以目前的行业水平,能检测出1000多个物质已经很好了。当然,这里要注意一些取巧做法,比如减少峰采集的点数,从20个降低到10个;比如减少物质对应的transition数目,从至少2个减少到1个。这都有可能降低数据的质量,增加假阳性的出现。
总结一下:
1. 作为检测生物样品的广筛型技术,无论是广泛靶标代谢组学还是非靶标代谢组学,因为各自的局限性,不可避免地存在一定的假阳性,本着科学研究的严谨性,我们都需要进行靶标验证实验。
2. 非靶标代谢组学技术像“网鱼”,适合对样本中全面信息整体研究的应用场景,广泛靶标代谢组学更像多鱼竿“钓鱼”,适合有针对性方向或特别关注物质的科研需求。
参考文献
[1] Sawada Y , Akiyama K , Sakata A , et al. Widely Targeted Metabolomics Based on Large-Scale MS/MS Data for Elucidating Metabolite Accumulation Patterns in Plants [J]. Plant & Cell Physiology, 2009.
[2] Chen W , Gong L , Guo Z , et al. A Novel Integrated Method for Large-Scale Detection, Identification, and Quantification of Widely Targeted Metabolites: Application in the Study of Rice Metabolomics [J]. Molecular Plant, 2013, 6(006): 1769-1780.
[3] Chen S , Kong H , Lu X , et al. Pseudotargeted metabolomics method and its application in serum biomarker discovery for hepatocellular carcinoma based on ultra high-performance liquid chromatography/triple quadrupole mass spectrometry [J]. Analytical Chemistry, 2013, 85(17): 8326-8333.
[4] Zha H , Cai Y , Yin Y , et al. SWATHtoMRM: Development of High-Coverage Targeted Metabolomics Method Using SWATH Technology for Biomarker Discovery [J]. Analytical Chemistry, 2018: acs. analchem. 7b05318.
热门跟贴