AI助力，西湖大学大幅度提高甲状腺结节良恶性辨别力

学术研究

徐珊公共事务部 2020年05月12日

媒体联系冯怡邮箱: fengyi@westlake.edu.cn
电话: +86-(0)571-85270350 公共事务部

你听说过甲状腺结节吗？

有没有觉得，身边患甲状腺结节的人越来越多？

查出甲状腺结节怎么办？有没有听医生说过：先观察，看情况？

数据显示，我们每5个人中，就可能有1个人患有甲状腺结节。更令人困扰的是，虽然多数甲状腺结节根据术后病理诊断结果，实际上是良性的，但这个“可大可小”的病，一直缺少手术前就能判断良恶性的行而有效的方法——统计结果显示，大约30%甲状腺结节在手术之前无法被明确诊断。

目前，基于基因的甲状腺结节良恶性诊断试剂盒已投入到临床应用，但由于甲状腺结节其恶性程度低等原因，基因水平上的改变并不明显，这也局限了基因在此领域的广泛应用。现下的临床决策，更接近于“赌一把”，甚至抱着对甲状腺癌“不怕一万，就怕万一”的心态选择切除……

近日，西湖大学生命科学学院郭天南实验室与工学院李子青实验室合作，将人工智能技术用于近千例甲状腺结节病人的蛋白质组大数据。通过机器学习，发现了帮助我们区分甲状腺结节良恶性的蛋白质分子标记物的组合。该标记物系列将有望大幅提高良恶性判断的准确度。

相关研究成果已于近日在预印版平台medRxiv上线。西湖大学郭天南实验室博士生孙耀庭、访问学生刘威、副研究员朱怡，李子青实验室博士生臧泽林等为本文共同第一作者。西湖大学特聘研究员郭天南和李子青等为本文通讯作者。

原文链接：

Protein Classifier for Thyroid Nodules Learned from Rapidly Acquired Proteotypes

https://www.medrxiv.org/content/10.1101/2020.04.09.20059741v2

甲状腺结节良恶性

现有手段存在过度诊断和过度治疗

甲状腺结节，即甲状腺肿瘤，是指在甲状腺内细胞增生后出现的团块，通过影像学检查可以观察到。它可由多种因素引起，在当代人群中较为高发。与多数结节一样，甲状腺结节也有良性与恶性的区别。良性的甲状腺结节（如滤泡腺瘤）对日常工作生活不会有影响，而恶性的甲状腺结节（如滤泡癌）需要尽早进行医治。

然而，临床实践中，约有30%的甲状腺结节，缺少行之有效的良恶性判断方法。现存的对应手段主要为两种。

甲状腺结节诊断方法

一种为治疗性诊断，将切除携带者的整个甲状腺组织，在显微镜下对组织的切片进行观察；但即便在显微镜下，也较难评判良恶性，因为有的良恶结节几乎长得一模一样，只有非常细微差别，对医生的经验要求较高。同时，该方法有“矫枉过正”的风险——据过往数据显示，绝大多数的甲状腺结节实则为良性，即无切除必要。而甲状腺含有重要的免疫细胞，并分泌人体必需的甲状腺素等分子，后者能促进生长发育、促进新陈代谢、调节器官活动；失去甲状腺的人群，需要终身服药，以补足这些功能，体质也出现下降。

另一种方法为使用基因测序的试剂盒，对病患100多个基因进行测序，来判断良恶性。该手段的灵敏度较高（即漏诊率低），但是它的特异性，即诊断时不误诊的机会，根据2018年的Nature Reviews Endocrinology发表的论文总结，特异性仅为10%-50% [1]；也就是说，存在较大误诊的可能性。当良性结节被误判为恶性结节，同样会导致过度治疗，致使病患进行了本不必要的甲状腺切除手术。

除了以上办法，也有部分病患可能会被医生告知先进行观察，以待后续症状来判断结节是否为恶性。然而，如若等到恶化后才进行治疗，存在癌变细胞已经从甲状腺转移到身体其他部位的风险。

总之，现有的甲状腺结节良恶性诊断手法，存在过度治疗或过度诊断的现象。由于目前治疗恶性结节的主要手段为切除甲状腺，这些方法都很有可能致使结节携带者的生活质量受到极大的影响。

基于蛋白质检测的诊断新方法

有望大幅提高良恶性判断的准确率

为了克服甲状腺结节良恶性诊断的难题，西湖大学郭天南实验室与李子青实验室联手，同国内外多个临床团队合作，将人工智能技术应用到了蛋白质检测上，通过测量不同类型甲状腺结节组织蛋白质分子水平的变化，来对良性结节与恶性结节进行“识别”。

通过对2421个蛋白质组学数据进行分析，研究团队最终找到了14个关键蛋白质的组合，可对甲状腺结节进行良恶性判别。目前，该辅助诊断方法已进入临床验证阶段，有望在更多的甲状腺结节术前的样本上进行验证。

在本次研究中，实验团队分析了来自中国、新加坡五家临床医院的911个甲状腺结节携带者的组织样品，进行了基于数据非依赖(DIA)的蛋白质组学分析，生成了2421个蛋白质组学数据，是目前最系统的临床组织样品蛋白质组学研究之一。本次研究中甲状腺结节的入组病人以及样本数目，在全世界迄今的蛋白质组学研究中，为较为罕见的大体量。

郭天南团队对1725份甲状腺组织进行分析，得到的甲状腺蛋白质表达图谱

郭天南团队和合作者首先对新加坡国立肿瘤中心提供的578个患者1725份甲状腺组织进行分析。结果发现，随着肿瘤恶性程度的增加，更多的蛋白质被检测出来，即蛋白质的种类更多；同时，所有结节都表达的高丰度蛋白质，即在蛋白质组中含量较高的蛋白质，其表达量在恶性结节中更高。

相比于显微镜下观察细胞形态，或者就基因方面进行测试，在蛋白质层面，不同良恶阶段的结节，展示出了较多的差异。但是，形态学上表现极为相似的两个类型——滤泡腺瘤（良性）与滤泡癌（恶性），全蛋白质组表达水平（即蛋白含量）也高度接近。也就是说，区分两者依然较为困难。

由于实验所涉及的蛋白质组数据量庞大，同时，由于部分甲状腺结节在分子水平上差别微小——因此，郭天南团队想到了结合人工智能技术，来进行蛋白的进一步筛选。

于是，他们与西湖大学讲席教授李子青带领的人工智能研究与创新实验室展开合作。研究团队使用机器学习中的人工神经网络技术，即一种“模仿”人脑，由大量的节点（类似人脑中的“神经元”）相互联接构成的运算模型，对良性与恶性结节的蛋白组数据进行了分析，进行了大约2*10¹⁹次运算；这个运算量对于人工智能来说，不算大，但是对于常规蛋白质组学研究来说，却已经是“天文数字”。终于，研究人员找出了能够区分良性与恶性结节的14个关键性的蛋白质组合——它们构成了可以判断良恶性的模型。

随后，团队用该模型去预测未知良恶性的甲状腺结节，再与临床手术后的病理结果作比较。结果显示，在对来自中国的四家医院提供的288个甲状腺石蜡样本及64个甲状腺结节穿刺样本的良恶性的判断上，该方法的准确率达到了90%。

目前，该方法正在更多的临床中心中进行测试，进一步优化AI模型，并已在申请专利，有望投入临床应用。

西湖大学的学科交叉氛围
让蛋白质组和人工智能擦出了火花

为什么隶属生命科学领域的蛋白质组学的研究，可以如此“顺理成章”地与人工智能结合在一起？

事实上，长期从事蛋白质组学相关研究的郭天南，从2015年时，就开始构思将人工智能技术，应用到蛋白质组数据上的可能。当时，他尚在瑞士苏黎世联邦理工大学从事博士后研究，也接触了人工智能领域的专家，但由于条件不成熟，沟通成本又比较高，这个思路一直没有得以落地。

很巧的是，2018年左右，深耕人工智能领域的李子青，开始对生物医学和个人健康管理领域萌生了兴趣。他开始寻找利用人工智能，解决生医方面问题的合作点；当时，他想过结合的方向，包括肠道菌群研究。2019年加入西湖大学后，更加确定了AI基础+学科交叉的两个研究方向。

2018年4月，已加入西湖大学的郭天南，启动了基于蛋白质组检测判断甲状腺结节良恶性的研究。一个很偶然的契机，李子青和郭天南相遇并讨论了一些相关的技术问题，一拍即合，两个团队立马决定共同进行这个课题，郭天南实验室提供甲状腺结节的蛋白质数据，李子青实验室负责设计数据分类分型的人工智能模型，并利用数据对这个模型进行训练、完善。

作为人脸识别领域的专家，李子青形容，鉴别甲状腺良恶性结节的过程，正如人脸识别技术会需要辨别出“两个”长相非常相像的人；无非是，现在的“脸”，变成了蛋白质组数据。因此，在他看来，机器学习技术与生物学信息的结合，有先天性的优势。

即便如此，“认脸”的过程也并非一蹴而就，李子青团队花了6个月的时间，对机器学习辨别结节的模型，进行了持续优化，提高其准确率。最终，他们“揪出”了那14个可以“掀开”甲状腺结节良恶性面纱的蛋白质。

郭天南和李子青脑中那个不谋而合“天马行空”的学科交叉的理想，终于在西湖大学得到了实现。实际上，该课题仅仅是郭天南和李子青实验室合作的开端，眼下，他们还有更多“嫁接”了生命科学和人工智能的研究项目，正在有条不紊地进行之中。

这也是强调跨学科研究、鼓励学科交叉的西湖大学，科研日常的一幅典型的剪影。

*本研究与新加坡国立肿瘤中心、浙江大学医学院附属第一医院、浙江大学医学院附属第二医院、大连医科大学附属第二医院、中国医科大学附属第一医院共同完成。

参考文献：

[1] Thyroid surgery for differentiated thyroid cancer - recent advances and future directions. Nat Rev Endocrinol. 2018;14(11):670‐683.