欢迎光临标准物质网!

购物车

全国免费热线

4001-700-789

公司新闻您现在所在的位置:首页-新闻资讯 -公司新闻

基于 13 同位素分布模型的多重液相色谱 – 质谱 实验数据校准匹配算法

发布日期:2019年05月28日    浏览次数:837    关键字: 新闻 资讯

 液相色谱 – 质谱联用(LCMS)仪是液相色谱仪经接口与质谱仪结合而构成的分析仪器,液相色谱 – 质谱联用技术在分子生物学及医药学中被广泛应用,它是用于发现并分析生物标志物中复杂肽信号的关键技术。在实际操作中,为了提高检测覆盖率及量化准确度,经常对相同样本进行多次重复实验。理论上相同样本多次重复实验得到的谱图应该是一致的,即同种肽链在不同谱图中应该出现在相同位置,即具有相同色谱保留时间与质荷比。但由于实验误差不可避免,谱图存在偏移的情况,因此需要对多个谱图进行校准。

 目前,LCMS 图谱校准多采用翘曲函数纠正时间差,NIELSEN 等提出优化翘曲函数的相关方法;V[**]N NEDERK[**]SSEL 等提出半参数时间翘曲函数算法;J[**]ITLY 等提出液相色谱质谱翘曲函数法(lcmswarp)。以上方法均是针对多组数据进行的时间修正。复杂的 LCMS 谱图会出现在一个较小的时间窗口中产生多个色谱峰的情况,这样时间修正就会存在错误,通用软件如 OpenMSMsinspect等无法解决这类问题。而在量化时,大部分 软件 算 法 如 QuilProteinquantMsinspectOpenMSSuperhirn等对于重复实验数据都依赖于串联质谱 (MSMS) 的实验结果,其中与LCMS 峰重叠的一小部分可以量化。MaxQuant 软件基于 MSMS 结果对 LCMS 确定的肽链检测色谱峰区间,然后进行量化,虽然增大了量化的肽链数量,但如果某一肽链只被一次实验的 MSMS检测到,那么该肽链只能在对应实验数据中量化一次,而软件无法对该肽链在其它实验数据中的信号进行量化,导致覆盖率低。

  笔者认为除了时间要素外,还应引入受其它因素影响较低的特征来提高校准准确度及匹配覆盖率。目前,稳定同位素如 13C18O15N 等分析技术在生物领域中应用十分广泛,笔者重点分析肽链 XICs(选择离子色谱图)中的同位素分布特征,肽“[**]CNLDVILGFDGSR”的主 XICs、第一同位素XICs 与第二同位素 XICs 如图 1 所示。通过选取训练序列建立统计分析模型,剩余交集肽链作为测试序列进行模型测试,以验证模型的有效性,最后将多个数据的肽链信号对通过模型进行校准匹配,并验证覆盖率。

同位素

2 实验部分

2.1 数据来源

   东尼 校(UTS[**])的 蛋 白 质 组 学 实 验 室(RCMI Proteomics and Protein Biomarkers Cores),经 LTQ Orbitrap Velos 仪器处理的是一组 T[**]GE 肿瘤样本数据。从多组实验中选取两组数据 ( 数据 1 与数据2) 进行分析。数据结构包含 Level 1 Level 2 两层,均包含时间、质荷比 (mz)、质谱强度的数据;同时,实验数据经过 MSMS 检测,得到肽链信息列表。数据 1 中检测到 2 644 个肽,数据 2 中检测到 2 303个肽。如图 2 所示。数据 1 与数据 2 中由 MSMS共同检测的交集共 700 个肽。

ms-ms检测所得的数据1和数据2信息文氏图

2.2 数据处理

  本实验的数据处理分为数据预处理、训练测试序列生成、模型建立及测试、全集校准匹配 4 个部分。数据处理流程图如图 3


数据流程图

2.2.1 数据预处理

  根据实验 1 和实验 2 中的 MSMS 信息表,生成 MSMS 肽信号合集,并计算肽链的质荷比。在数据 1、数据 2 Level 1 数据中,以肽链的质荷比为中心,前后宽度为 δ 20×106,根据谱图的量值数据获取 LC 谱图全时间段的 XICs ;下一步在全时段XICs 上进行区间检测,在数据 1 中得到 n(n 1) 个信号区间段,在数据 2 中得到 m(m 1) 个信号区间段,均为该肽链在重复实验中产生的候选信号区间。

2.2.2 训练测试序列生成训练和测试数据的选取前提为必须具备可验证的真实值。笔者认为由 MSMS 检测到的肽信号的质荷比与时间值即为真实可靠的值。首先,选取图 2 中交集部分作为生成训练和测试数据的基础集合 ( 700 个肽链 ),把其中经过预处理区间检测包含 MSMS 时间点的肽链筛选出来,对应检测数据作为训练和测试的数据集 ( 599 个肽链 ) ;其次,随机选取一半检测数据作为训练序列,产生时间差统计学习模型以及峰形相似性模型;第三,另一半检测数据作为测试序列,通过学习模型预测肽信号匹配的准确性 ( MSMS 检测值作为真实数据 )

2.2.3 同位素模型建立

  在选取训练序列之后,首先对训练序列中的时间差采用 Warping 函数[3]进行初步校准。在使用Warping 函数之前,首先要剔除偏差较大的奇异点,这样才能保证生成 Warping 函数的准确性。采取每个训练序列肽信号的的数据 1 时间减去数据 2 时间,然后计算方差,采用(平均值 ±3 倍标准偏差)作为标准,将外部的点去掉,直方图如图 4


训练序列时间差直方图

由图 4 可以看出,多次重复实验的谱图时间并不是整体偏移的,时间差主要分布于 –150150 s,具有随机性。图 5 为根据去除奇异点之后的训练序列采用 Warping 函数进行拟合的结果。


训练序列

训练序列

由图 5 可以看出,由于时间偏移的随机性,在两个数据全局中采取 Warping 方式进行校准会引起偏差,比如在时间相对较小的位置偏差较大,而在时间后端偏差较小。从而验证了单纯使用 Warping 函数很难消除这种随机性,但是 Warping 函数可以作为初步校准的方法。

  选取训练序列并经 Warping 函数校准之后,对训练序列建立同位素学习模型。本实验假设:同一肽链在重复实验中产生主信号及同位素信号的位置相同且量值一致,即同位素分布一致。通过比对同一肽链在不同试验中的同位素分布相似程度来判断信号是否匹配,采用 KL 散度描述同位素在数据1与数据 2 中分布的差异。肽信号“EGGWDSVQDWMDVLSGGEK”在数据 1 和数据2 中的同位素 XICs 如图 6、图 7 所示。

同位素比

同位素质荷比

同位素xics时间量值二维图

同位素质荷比


在图 6、图 7 中,(a) 为三维 XICs 谱图,(b) 为时间 – 量值图,(c) 为质荷比 – 量值图,肽链同位素的区别主要表现在质荷比的不同。可以看出,同一肽链的同位素色谱峰在时间、形状上具有高度一致性,符合分布的特征。图 6、图 7 中,(c) 是将区间内求和得到的同位素分布。图 6(c) 为数据 1 的同位素分布 P,图 7(c) 为数据 2 的同位素分布 Q,利用式 (1)计算 KL 散度:

 kl散度

式中:DKL(P||Q)——用概率分布 Q 拟合真实分布P 时,产生的信息损耗;

P——真实分布;

Q——P 的拟合分布。

  DKL(P||Q) 越接近于 0,说明 Q P 两个分布越符合,即越大概率认为是由同种肽链产生的信号。

  由于 KL 散度值均大于 0,对 KL 散度值取自然对数,使其分布于整个坐标轴,如图 8 所示。图 8(a)为相关信号 KL 散度自然对数的直方图,图 (b) 为非相关信号 KL 散度自然对数的直方图。通过两个图的对比,可以看出非相关信号直方图在 –10~–5 之间有分布,说明部分信号的同位素色谱峰区间检测是不准确的,受到噪声干扰。用正态分布拟合相关信号与非相关信号的直方图得图 8(c)。从图 8(c) 中可以看出,同位素模型具有很强的区分度。

同位素色谱峰


相关信号与非相关信号 KL 散度的对数值正态分布如式 (2)

kl散度


式中:x——KL 散度的对数

μ,σ——分布参数,由样本的最大似然估计值

计算:

公式最大值

2.2.4 全集校准匹配

  模型的建立及测试均以图 2 交集数据为基础,即参与模型建立与测试的肽链在两个数据中均被MSMS 检测到,这样模型就可以参照 MSMS 检测真实值对测试结果进行准确度计算。验证模型有效性后,将仅在一个数据中被 MSMS 检测到的肽链导入模型,在无真实值的情况下在另一个实验数据中校准匹配该肽链产生的相关信号。最终数据 1 和数据 2 中所有被 MSMS 检测到的肽链将产生相关信号。

3 结果与讨论

3.1 数据分析结果

  数据分析结果主要包含两个部分:一是同位素模型有效性测试结果;二是肽链全集最终校准匹配结果。

3.1.1 同位素模型测试结果

  交集部分共有 700 个肽链,经过区间检测到包含 MSMS 时间点的共 599 个,作为训练与测试序列。总共进行了 10 次测试,每次从训练与测试序列中随机选取 300 个,先经过 Warping 函数初步校准,作为训练建立模型,其余 299 个进行模型测试,将测试结果与 MSMS 时间点真实值进行比对,计算区间校准匹配准确度。(1)使用 Warping 函数校准时间,并生成仅在Warping 函数校准后的匹配结果(见表 1)。

warping函数校准后的模型匹配


由表 1 可知,仅用 Warping 校准的测试结果准确度均值为 86.81%

  2)建立同位素模型,并使用同位素模型计算肽信号校准匹配准确度。使用同位素模型所得肽信号校准的匹配准确度如表 2

使用同位素模型校准后的匹配结果

2 可 知,10 次 测 定 的 平 均 值 为 94.82%。表明在 Warping 函数初步校准基础上,建立同位素模型,通过序列测试,匹配准确度可以提高约 8%。这证明同位素模型可以较好地区分在狭窄时间窗中的肽链相关信号和干扰信号。

3.1.2 数据并集的校准匹配

   1 与 数 据 2 MSMS 检 测 肽 链 的 并 集共 4 947 个,分布如图 2 所示;交集共 700 个,而通过区间检测到信号的共 599 个。在此基础上建立模型,并对差集中的肽链进行匹配。差集数据 1 中有1944 个,数据 2 中有 1 603 个,共 3 547 个肽链。通过模型校准匹配,共能实现 3198 个肽链在另外数据中的区间匹配,覆盖率达 90.1%

3.2 存在的问题

  基于以上研究结果,急需解决区间检测准确性的问题。可以看出,交集的 700 个肽链中只有 599个能被检测到信号区间,检测到区间的概率大约为 85% ;这说明部分被 MSMS 检测到的肽链信号非常弱,无法在 Level 1 数据中被检测出来。同时,准确的区间检测将会提升同位素色谱峰量值的准确性,这将直接影响同位素模型的建立和区分度。另外,非相关信号的同位素 KL 散度直方图中在 –10~–5 之间存在着拖尾现象,这极有可能是区间检测不准确造成的。因此下一步将重点研究准确的区间检测算法。

4 结语

  采用 Warping 函数对多次重复的液相色谱 – 质谱实验谱图数据进行初步校准,并选取训练序列建立同位素统计学习模型。通过测试序列验证,该模型对校准匹配有效,准确率提升约 8%,两个谱图的匹配校准准确性达 95% 以上,覆盖率达 90% 以上,为肽链量化提供了有力的算法支撑。

客服
微信
QQ
电话
4001-700-789
顶部

4001-700-789

周一至周六 8:00-20:00

联系我们

业务咨询:4001-700-789

售后电话:010-51288686

邮箱:info@bzwz-china.com

北京市房山区长阳万兴路86号-A3841

CopyRight 2018 国家标准物质网 版权所有 京ICP备18058387号