郭天南:蛋白质组大数据+AI,会有哪些神奇的发现? | 前沿分享②

来源:郭天南实验室 发布时间:2020-01-19 作者:整理:陆恬

什么是蛋白质组大数据?这些数据从哪里来,又有什么用?目前存在什么技术挑战,又是否有解决之道?

1月10日,西湖大学生命科学学院特聘研究员郭天南,以“蛋白质组学”为关键词进行了一场线上知识分享。前沿分享第二期,我们将这次分享的内容稍作整理,共享给大家。

郭天南,西湖大学PI,蛋白质组大数据实验室负责人。曾在华中科技大学同济医学院、武汉大学、新加坡南洋理工大学、瑞士苏黎世联邦理工大学、澳大利亚悉尼大学儿童医学研究所等学习和工作,长期从事蛋白质组学相关研究。更多信息:www.guomics.com。



图像来源:Ever Wondered How Much Data Is Generated Every Minute?

(https://wersm.com/much-data-generated-every-minute/ )


身处大数据时代,有人估计人类每天产生2.5亿亿(2x1018)比特数据。2015年的一篇PLoS Biology的综述总结了大数据时代的4个主要方向(如下图),其中基因组大数据正在兴起。

PLoS Biol. 2015 Jul; 13(7): e1002195.


事实上,基因组只是生命大数据的一部分。生命科学的中心法则涉及了DNA、RNA和蛋白质,仅仅测量DNA和RNA难以获取关于生命活动的最直接信息,还需要蛋白质组大数据的参与。蛋白质组的复杂维度比基因组高好几个量级,需要更大的数据量才能深刻理解。如果我们有方法让各种组织细胞在病理生理状态下的蛋白质表达变成大数据,那将大大加强我们对生命的理解和对疾病的应对。当然,这样的话产生的蛋白质组大数据量级也将难以估量。


从生物学原理上看,蛋白质组的价值毋庸置疑。早在约20年前,全基因组测序完成后,在《科学》和《自然》杂志中,科学家们就兴奋地预言蛋白质组的时代已经到来。但直到现在,我们都很少看到蛋白质组对我们的生活或疾病诊疗产生实际的影响。这是因为蛋白质组面临很大的技术挑战,没有像基因测序技术那样的普及,这是一个卡住了全世界科学家脖子的难题。



下面,我从一个小角度谈一谈蛋白质组学在临床诊断上的最新进展,这涉及到临床蛋白质组学的研究人员一直困惑、争论的一个问题:蛋白质组中是否含有人类疾病的生物标志物(Biomarker)?

理论上看,这个问题的答案肯定是Yes,那为什么仍要提这个问题?因为蛋白质组发展了几十年,还没有一个能够被临床认证的生物标志物是由基于质谱技术的蛋白质组产生的。这是一个非常令人遗憾的事实。所幸,这并没有阻止科学家们探索的步伐,反而吸引越来越多的科学家涌向这一领域,希望用自己的创造力回答这个难题。

下面我讲几个技术与研究成果,可以在一定程度上应对这些技术挑战。


SWATH/DIA

SWATH/DIA是最近几年兴起的质谱技术,所产生的谱图就像下图展示的那样:在某一时刻,数个不同颜色的多肽在同一时间区间出现,DIA产生混合谱图,能够将样本信息完全转化为数字信息。而传统的鸟枪法质谱只挑选出一些丰度较高的多肽分离出来打碎,样本中很多信息都未被采集,其定量准确性在同样的色谱条件下逊于SWATH/DIA。

图像来源:SWATH 采集技术(非数据依赖型采集技术 (DIA) )

https://sciex.com.cn/technology/swath-acquisition


压力循环技术(PCT)

样本处理方法也很重要。多数临床样本为了能够长久保存,通常是经过福尔马林固定、石蜡包埋的坚硬的柱状组织,从中提取足够的多肽是一大难题。我们开发的基于压力循环技术的新方法,可以从1立方毫米(1~2毫克)的临床样品中提取50~200微克的多肽,能够做上百次质谱分析。整个流程可以在3小时内完成,足以满足大部分临床需求,这也大大降低了蛋白质组分析成本。



蛋白质的稳定性研究

很多研究人员对从蛋白质组中寻找biomarker存疑,主要是因为他们认为蛋白质构象不稳定,抗体有时难以检测。但基于质谱方法的检测原理的关键是检测蛋白的序列,与抗体不同。我们最近有一篇论文证明了蛋白质序列的稳定性非常强。下图展示的是前列腺组织的两幅热图,左侧是样本mRNA的表达,颜色较暗,说明几乎所有的mRNA在所有样品里都存在一定程度的降解;右边展示了相邻组织的蛋白质组的情况,颜色较亮,所有样品绝大部分蛋白质都没有降解。由此证明,使用质谱检测蛋白质组非常稳定。


蛋白质异质性研究

我们与生物统计学家合作,基于一系列前列腺癌样本建立模型,发现90%以上蛋白的异质性很小,只有少数蛋白呈现异质性。


石蜡组织样本的蛋白质组变化

世界上绝大部分组织都是石蜡组织(FFPE)。石蜡样本的蛋白质会受到福尔马林的影响,产生大量化学交联,交联后的蛋白有时难以用抗体检测到。那么质谱能不能检测呢?我们最近改进PCT技术,通过热、酸、碱的处理,尽量把化学交联去掉,然后我们对最后的结果进行了研究。下面这个散点图展示的是FFPE临床样本和新鲜冻存样本的蛋白质定量结果。可以看到,定量的蛋白相关性很高,说明使用我们的方法可以对石蜡组织样品的蛋白质组进行准确定量。


结合以上几点,使用蛋白质组大数据进行数据分析寻找biomarker成为了可能。2018年,《自然》将SWATH列为最值得关注的生物技术之一。我们在西湖大学GUOMICS(我们实验室)也建立了一个非常有效的PCT-SWATH/DIA平台。我们将临床存在的组织、血液、尿液、粪便等大队列样品,通过高通量PCT-SWATH/DIA技术将检测信息转化成大数据。当然我们还要不断地改进我们的技术,以期将这套流程能够运用到临床的检验诊断上,进行重大疾病的分型、药物耐药性预测以及存活率的预测。



下面我讲一下应用。

这个应用是针对甲状腺结节良恶性诊断。尸检结果显示,约50%的成年人患有甲状腺结节,尤其是在女性群体中。据统计,约60%结节属于良性,10%属于恶性,剩余30%的甲状腺结节为无法诊断的甲状腺结节(indeterminate thyroid nodule)。对于无法诊断的甲状腺结节,大部会被手术切除,失去部分或全部甲状腺的患者需要长时间或终身服药以维持甲状腺激素平衡,对患者的生存质量造成严重影响,对家庭与社会带来经济负担。手术后的结节通过有经验的病理医生诊断后发现,大约有80%的结节属于良性结节,在不压迫血管神经的情况下并不需要手术切除。这也是甲状腺过度诊断的原因之一。


图片来源:西湖大学2018级博士生 孙耀庭


下面这张截图来自2018年发表在Nature Reviews Endocrinology上的文章,该文总结了目前市面上商业使用的分子测试甲状腺结节良恶性试剂盒的效果。这些试剂盒的灵敏度达到83%~100%,但是特异性只有10%~52%。这里的特异性是指:被诊断为恶性肿瘤的人群中,只有10%~52%的患者真正患有恶性肿瘤。也就是说,许多只患有良性结节的患者,他们的甲状腺仍旧被切除了。



蛋白质组是否能解决这个问题呢?我们同西湖大学工学院李子青教授以及国内外临床医生合作,使用蛋白质组大数据和AI技术,进行了国际多临床中心的研究,开发了敏感性和特异性都在90%以上的新型辅助诊断方法,当然我们目前的方法仍处于实验室研究阶段,仍需进一步验证。

最后我总结一下。蛋白质组对疾病的诊断非常重要,并且最新技术的进展让蛋白质组技术用在临床生物标志物的发现上成为可能。我们通过甲状腺结节的良恶性诊断作为例子,来证明基于PCT辅助的SWATH/DIA质谱技术的蛋白质组学对精准医疗具有可行性。未来,我们会继续和临床医生、计算机科学家一起开发基于蛋白质组的大数据、进行人工智能分析的诊断、筛查新模式。当然,蛋白质组只是所有测量中的一部分,我们还可以结合多组学,结合临床图像和病人临床数据建立综合模型。