摘 要
肿瘤是威胁全人类健康的重大公共卫生问题。近年来,随着基于大数据的生物信息学的高速发展,各种组学研究方法在肿瘤诊治方面展现了重要潜能。其中,影像组学的兴起扩大了医学影像在肿瘤精准诊疗领域的应用范畴。然而,由于肿瘤的发生和发展涉及多层次的多种因素,单一组学信息仍难以满足推进肿瘤精准诊疗策略发展的需求,多组学研究成为了新兴趋势。其中,将影像组学与其他组学整合的研究思路为肿瘤个体化诊疗提供了全新的视角,但同时也面临着诸多挑战,仍有必要引入更多新技术、新理论,加速肿瘤精准诊疗的进程。
肿瘤精准诊疗作为现代医学领域的一项重要突破,旨在通过深入了解肿瘤患者的个体特征,为其提供个体化、有效和精准的治疗方案。这一医疗策略的核心在于将多层次、全方位的信息整合到临床实践中,以更精确、更有效地指导肿瘤的治疗决策。随着大数据时代的到来,各种组学研究方法在揭示肿瘤的发生、发展机制和改善肿瘤治疗、预后方面逐渐成为了有力工具,在肿瘤精准诊疗领域引起了广泛关注。其中,影像组学的崛起拓宽了医学影像在肿瘤诊疗方面的应用场景,成为我们更好地理解肿瘤生物学特性与临床预后结局潜在关联的桥梁工具。在单一组学信息难以满足推进肿瘤精准诊疗策略发展需求的背景下,将影像组学与其他组学整合的研究思路成为了新兴趋势。这种全新的研究范式不仅使我们能够更全面地理解肿瘤的复杂生物学机制,同时也为深入挖掘肿瘤患者临床结局的个体差异提供了关键性的信息,有望为肿瘤精准诊疗开启崭新的篇章。本文旨在探讨将影像组学整合到多组学研究中的新趋势、新进展,并关注该领域的挑战和展望。
1 影像组学与多组学研究背景
医学影像是指导肿瘤诊疗决策制定的重要依据。随着图像量化挖掘技术的不断发展,肿瘤影像的功能不再仅局限于提供肿瘤整体大小、形态等宏观信息,借助影像无创性解读肿瘤复杂的异质性信息逐渐成为可能。利用医学影像,从肿瘤感兴趣区域提取高维量化特征,并将其与临床结果相关联,这一分析过程被称为影像组学(radiomics)[1-2]。影像组学的优势在于能够以非侵入性的方式揭示与患者临床结局相关的肿瘤异质性信息,从而指导临床决策。在过去的近10年里,影像组学在肿瘤领域取得了许多重要的研究进展,在诊断、分型分期、生存预后、疗效预测等方面展现出了巨大的潜能[3-8],为肿瘤精准诊疗提供了崭新的手段。
影像组学的概念借鉴了生物学中“组学”(omics)的思想和方法。基因组学是生命组学中发展最早的领域之一,其主要目标是通过基因测序、基因注释、基因表达分析等技术对整个基因组进行表征、量化,揭示在基因结构、功能、调控等方面的肿瘤发生发展机制,以更好地理解肿瘤的发生发展、发现新的治疗靶点,并最终改善肿瘤个体化治疗策略[9]。然而,肿瘤的发生发展可能与某个基因的突变有关,也可能与基因在转录、翻译或者其他过程中出现的错误有关。因此,为了全面了解肿瘤的复杂性,我们还需要借助转录组学研究全基因组的转录情况和转录调控规律,以确定基因的表达模式以及不同生理状态下的基因表达差异;通过蛋白质组学的质谱分析、蛋白质组分离和鉴定技术、蛋白质修饰分析等鉴定和定量肿瘤细胞中的蛋白质,探索肿瘤细胞的信号通路和调控机制;通过代谢组学分析和解读代谢产物的谱图和代谢途径,揭示细胞的代谢状态、能量供应、信号传递等信息。因此,继基因组学之后,转录组学[10]、蛋白质组学[11]、代谢组学[12]等多种组学研究方法的兴起使得从各个层面揭示肿瘤发生和发展机制成为可能。
随着组学技术的蓬勃发展,人们逐渐认识到单一组学难以深入理解肿瘤的复杂生物学过程。整合解决这一问题的重要途径之一是整合多种组学数据进行分析,由此多组学研究应运而生。肿瘤多组学(multi-omics)研究方式指的是将两种或者两种以上的组学数据进行整合、分析,以系统性解析肿瘤在不同层面的复杂相互作用和机制[13-14]。举例来说,整合基因组学和转录组学数据能够发现与肿瘤相关的基因突变和表达异常,从而识别潜在的致病基因和抗癌药物靶点;整合蛋白质组学和代谢组学数据则有助于了解肿瘤的代谢途径和相关的蛋白质网络。近年来,随着高通量测序和质谱技术成本的降低,以及整合算法的不断创新,多组学研究在肿瘤领域得到了迅速发展[13-19]。例如,国内研究团队测定了肝癌外显子组、转录组、蛋白质组及磷酸化蛋白质组数据,获得了大规模的全景式肝癌队列多组学图谱,从而多层次、多维度地揭示了肝癌从基因突变到转录以及蛋白质翻译的整个过程[20]。此外,针对食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCCs)的多组学研究将基因组、表观基因组、转录组和蛋白质组数据整合,将 ESCCs分为4个分子亚型,并开发了一个由28个特征构成的分类器,可识别其中对免疫检查点阻断疗法反应更敏感的免疫调节亚型[21]。该分类器可成功预测抗PD-1疗法的治疗反应。可见,多组学技术在肿瘤领域的应用为我们深入了解肿瘤的分子机制、开发新的抗癌药物以改善治疗策略提供了新思路。
2 整合影像组学的多组学研究进展
影像组学和其他组学研究对肿瘤的描述在尺度上具有互补性。影像组学提供了肿瘤宏观尺度的形态结构信息,而其他组学则提供了肿瘤微观尺度的分子信息。近年来,研究人员试图整合这两类信息,探索肿瘤微环境空间异质性的架构、寻找新的生物学标志物,以期改善肿瘤治疗策略[22]。
2.1 影像基因组学
最早进行影像组学与其他组学整合分析的思路是影像基因组学。常见分析步骤包括:首先获得大量影像和基因表达谱数据,建立影像组学特征与已知的肿瘤亚型之间的关联,或直接识别具有临床结局预测潜能的影像特征,继而探索这些影像特征与基因或基因模块的相关性,最后进行相关基因或基因模块的功能注释。通过将相对宏观尺度的影像组学特征与微观分子特征(基因表达谱信息)进行关联分析,影像基因组学研究一方面可直接识别能够预测基因组的影像生物学标志物,另一方面还可为模糊的影像组学特征/影像表型提供生物学解释,辅助推测肿瘤潜在生物学机制。近年来影像基因组学得到越来越多的关注,在乳腺癌、胶质瘤、肺癌和结直肠癌的诊断、分级、疗效及预后预测方面展现了巨大的潜能[23-25]。例如,利用影像组学数据进行三阴性乳腺癌的精细亚型分型,并结合转录组学和代谢组学数据,提示影像组学特征与免疫抑制和脂肪酸合成的上调相关,从而帮助理解影像组学表型的潜在生物学意义[26]。亦有研究[27-28]试图联合影像组学与基因组学特征预测临床结局。总的来说,肿瘤影像基因组学通过建立基因和非侵入性影像之间的关联,试图相对无创、实时、连续地从分子水平上理解和监测肿瘤的发生发展机制、反映临床结局,从而指导肿瘤治疗决策。
2.2 影像转录组学
影像转录组学作为一个较为新兴的研究领域,通过将基因表达数据与影像表型相结合,旨在捕捉基因表达与宏观影像表型之间的关联。最初在神经影像领域得到了尝试应用,特别是在神经精神疾病和脑神经发育方面[29-31]。这一方法在揭示大规模宏观脑影像学特征的分子基础方面提供了前所未有的机会,也有助于更好地理解神经精神疾病和大脑神经发育过程中的生物学机制。在肿瘤方面,近年来也涌现出一些试图整合影像组学与转录组学数据以实现更精确的肿瘤分型、分层的研究[32-37]。例如,有研究[33, 35]通过影像组学成功区分头颈鳞状细胞癌和胶质母细胞瘤的分子亚型;另一项研究[36]通过关联MRI影像组学与差异基因表达谱数据,揭示了软组织肉瘤患者的影像分型与增殖和免疫应答的抑制过度激活之间的关联,为影像分型提供生物学解释;还有研究[34]利用血清miRNA水平及影像组学特征开发了影像转录组学标签,用于预测非小细胞肺癌患者的放疗反应。最近的文献[37]报道提示,通过整合影像组学和转录组学数据,可以确定非小细胞肺癌的3种具有预后效用的影像-转录组学亚型。随着高通量技术的发展,新的单细胞转录组学图谱数据库的建立也在加速进行,未来的研究有望与越来越全面和精确的转录组学图谱数据相结合,从而更有效地捕捉基因表达与宏观影像表型之间的关联。
2.3 影像病理组学
组织病理学评估仍然是癌症诊断所依赖的金标准。随着全切片数字扫描技术(whole slide imaging,WSI)的发展,病理组学(计算病理)作为一门新兴学科应运而生。病理组学致力于挖掘由传统的玻璃载玻片“数字化”转换而成的数字化病理图像中关于细胞、组织和切片层面的量化信息,以实现分类、预测等任务。该过程将病理图像转化为高通量、可挖掘的高维病理学特征集,其中包括不同细胞之间的拓扑空间关系、纹理特征、边缘梯度特征等定量特征,旨在定量表征肿瘤的恶性程度、复发/转移风险、治疗反应/进展以及患者的生存预后。病理组学与影像组学对肿瘤特征的挖掘尺度不同,二者的交叉融合可提供互补信息,影像病理组学因而应运而生。影像病理组学目标在于挖掘数字病理和影像(如CT/MR图像)之间存在的跨尺度关联,以从多尺度理解肿瘤内部异质性[38-39]。例如,基于人工智能的术前影像-活检病理组学融合模型被用于预测局部晚期直肠癌患者的新辅助治疗反应[40-41]。值得注意的是,该模型预测效能显著高于单一影像组学或病理组学模型。此外,有研究[42]整合了包括病理组学特征、影像组学特征、免疫评分和临床特征,构建个体化模型,该模型能够可靠地预测结直肠癌肺转移患者的术后生存。由此可见,影像组学和病理组学的整合不仅可以重新定义“数字活检”的概念,即通过非侵入性的影像手段获取活检病理参照信息,还能够联合挖掘肿瘤宏观影像信息和微观病理信息,以更全面地表征肿瘤在不同尺度上的异质性,这一整合有望更准确地反映临床结局。
2.4 整合影像组学的其他多组学研究
越来越多的研究提示,整合影像组学的多组学研究领域未来发展潜力巨大[43]。如整合影像组学、病理组学及基因组学数据有助于探索具有预后预测效能的影像特征与组织病理微环境异质性特征以及肿瘤进展相关生物学通路之间的潜在关联[44-45]。近期另有研究[46]基于匹配多组学的大型影像组学数据库,全面解析了乳腺癌患者影像组学肿瘤内部异质性特征,多维度论证了影像组学方法评估肿瘤内部异质性的可靠性,并深入探索了其背后的生物学基础。这一研究有望为临床实践中肿瘤异质性的无创评估和治疗策略探索提供新的模式。通过机器学习模型融合组织病理学、影像组学和基因组学数据,一些研究提示有望改善肿瘤患者预后风险及治疗疗效分层[47-48]。最近的研究[18]还通过机器学习网络进行蛋白质组学、磷酸化蛋白质组学、乙酰化组学、代谢组学、脂类组学数据以及影像组学数据的多组学整合分析,重新定义了恶性胶质瘤的4类功能性亚型,其中影像组学数据的整合用于探究功能性亚型与影像表型之间的关联。该研究进一步识别了可定义各亚型特异性表型的主要激酶,从而建立了调控恶性胶质瘤亚型生物学特性的多组学特征与能够直接实现亚型特异性表型的蛋白激酶之间的联系。值得一提的是,近年来多组学领域的重要进展—空间组学的问世使得生命组学与影像组学在挖掘肿瘤空间异质性方面更加契合,通过分子特征与空间分布的结合,为揭示肿瘤微环境异质性提供了独特的视角。
可见,近年来随着影像组学的飞速发展,已出现越来越多的研究试图将影像组学数据与基因组学、转录组学、病理组学等其他组学数据进行整合分析,无论是对肿瘤多尺度异质性架构的探索,还是对新兴生物学标志物的寻找,借助影像组学这一桥梁,都将进一步加速多组学研究的临床转化步伐。
3 整合影像组学的多组学研究挑战及展望
影像组学与其他组学的整合还面临诸多挑战,主要体现在数据获取、数据整合及数据解释方面。
3.1 数据获取
数据可用性既是多组学研究的主要驱动因素,又是其发展的主要障碍[43]。首先,对于影像组学数据而言,当前仍很大程度依赖手动标注和分割,这不仅耗时,而且存在一定的主观性。此外,由于缺乏标准化的特征提取流程,导致可重复性相对校低。因此,迫切需要开发更高效可靠的自动分割方法和标准化的特征研究流程,以提高将影像组学数据整合到多组学研究中的适用性、准确性和研究效率。其次,多组学数据日趋依赖深度学习整合模式,而这一模式的实施需要大量数据的支持。生物医学领域基于数据驱动的研究面临的一个普遍问题是数据的稀疏性和匮乏性。在实际的临床实践中,不同患者之间不同类型的数据缺失是常见的现象,使得获取所需模态的完整数据变得十分具有挑战性。为了解决模态数据缺失的问题,目前该领域已成功采用多种插值、填充和矩阵完成算法来处理临床数据,以提高数据的完整性和可用性。这些方法涵盖了一系列替代策略,包括均值/中位数替代、回归、k最近邻和基于树的方法,以及更先进的算法如多重插补、基于链式方程的多变量插补,甚至类似于循环神经网络(recurrent neural network,RNN)、长期短期记忆网络(long short-term memory,LSTM)和生成对抗网络(generative adversarial networks,GANs)的神经网络等[49-51]。这些方法不仅改进了数据处理的效率,还提高了数据的可信度。此外,随着深度学习技术的不断进步,逐渐涌现出更多能够有效处理模态缺失数据的方法[52-54]。这为整合影像组学于多组学研究提供了更多可能性,使得研究人员能够更全面、深入地理解生物医学数据,为精准医学的发展和应用提供更有力的支持。
同时,不同模态的数据具有不同的结构和类型,并且通常由不同的实验平台生成,这可能导致数据质量和一致性存在问题。因此,如何在临床实践中获取足够数量且具备标准质量的多种组学数据,是目前该领域的一个重大挑战。可满足多组学整合分析数据标准的平台资源的构建和共享已成为解决这个问题的一个重要发展方向。目前最常用的为癌症基因组数据库(the cancer genome atlas,TCGA)[55],此外逐步可见更多的旨在结构化整合肿瘤临床、基因组学、影像学和病理学数据的标准化数据平台资源,包括基因组数据共享中心(Genomic Data Commons, GDC)[56-57]、癌症图像档案(the cancer imaging archive, TCIA)[58]、基因组学-病理学图像集(the genomics pathology imaging collection, GPIC)[59]等,共同致力于以可找到、可访问、可互操作和可重用(findability, accessibility, interoperability, andreusability,FAIR)的方式处理、分析和共享数据[60]。
此外,由于医学数据包含极为敏感的健康信息,医学数据的采集不仅仅涉及数据的完整性和质量,还涉及到生命体的隐私与安全问题。在当今大数据时代,研究人员面临的一个重要挑战即如何在数据共享的同时确保个人隐私的保护。为了解决这一难题,2017年,谷歌提出了新一代联邦学习的概念。该方法通过建立数据联邦,即在保证数据隐私安全、合法合规的前提下,将多中心数据集中建模。近几年来,这一方法在医学领域逐步开始可见研究应用[61-63],有望解决医学数据中存在的“数据孤岛”问题,以及在数据共享时需要保护的隐私问题[64-65]。联邦学习的理念为跨机构、跨地区的医学研究提供了新的思路,通过在数据共享的同时确保了患者的隐私权益,推动了医学数据的更广泛应用和研究的发展。这一趋势不仅有助于弥合医学数据共享和隐私保护之间的矛盾,也为促进基于数据驱动的肿瘤精准医疗策略的推进奠定了坚实的基础。
3.2 数据整合
不同组学数据具有不同类型、不同规模和不同的分布,有效的整合将有利于不同组学之间实现信息互补,提高模型的精度,反之则不仅不会提高模型的性能,反而会增加问题的复杂性和计算时间。组学数据本身具有高维度、多噪音和数据稀疏的问题,而影像组学特征与其他组学数据在尺度上跨越大,且其突出的特征高维度亦导致与其他组学数据的维度亦难以匹配,如何在数据融合过程中减少维度,同时保留大部分有价值的特征描述,对算法模型和处理平台服务器提出了较高要求[66-67]。
从整合步骤的角度来看,存在3种整合策略:早期整合、中期整合和后期整合[43, 68]。早期整合又称基于连接的整合策略,是整合分析最直接的策略,只需将不同组学层次的特征向量连接到一个整合数据集中,训练一个单一模型。这种策略便于使用统计方法对连续和离散数据进行分析,可以直观地分析不同组学之间的交互关系。但缺点是由于特征空间太大,可能会导致“维度灾难”,特别是引入影像组学的高维度特征时,更需要注意处理过拟合问题。后期整合又称基于模型的整合策略,是指首先在每个组学层独立进行分析、单独建模,最后通过平均、加权或其他机制集成最终的单一预测结果。后期整合策略不仅便于每个组学层次上构建更适合该模态数据的模型,而且更易处理某些模态数据缺失的情况,但其本质上是一种多重单组学分析,在学习过程中忽略了不同组学间的互补/协同信息。中期整合又称基于转换的整合策略,这种整合方式不合并输入数据,也不为每个模态开发单独的模型,而是首先开发推理算法来生成融合多模态低级特征表示。这种“中间”特征表示形式既保留了每一组学数据的特性,又消除了不同组学数据间特征类型的差别,因此在具有更好的鲁棒性的同时亦更方便捕获不同组学间的交互作用。总的来说,不同的整合策略各具利弊,难点在于需要针对具体的临床任务、具体的可用组学数据来选择有效的整合策略,遗憾的是目前这一难题仍缺乏足够的经验/证据支持,因此还需更多的探索以有效整合挖掘肿瘤多组学数据中隐含的知识和规律。
就计算方法而言,存在3种整合方法:统计方法、传统机器学习方法或深度学习技术方法。统计方法是发展较早的整合方法,如多组学因子分析方法、自适应套索的多核惩罚线性混合模型等[52, 69],得到较为广泛的应用。然而,统计方法存在稳定性较差、计算速度慢等问题,且受计算资源的限制,这一劣势在仅处理单一影像组学数据方面已日益凸显。面对日趋庞大而复杂的多组学数据,更多研究正探索基于机器学习的多组学数据整合方法[70-72]。其中,深度学习方法通过将数据变量(即特征)计算嵌入到机器学习模型本身中,实现端到端模型,可以有效解决数据异构性、 “维度灾难” 、数据缺失、大数据可扩展性和类不平衡的问题,已在不同的单一组学领域取得了成功应用[73-76],譬如,可应用于影像组学分析流程中的各个环节,包括图像配准、肿瘤分割、特征提取、筛选以及模型构建,提高临床结局分类/预测效能[5, 8]。近年来,深度学习技术已逐渐被尝试应用于多组学数据的整合分析,包括基于自编码器[77-78]、深度前馈网络[79-80]、图神经网络[81]等方法,试图更系统地捕捉多组学之间的复杂性,建立更可靠的多组学关联。
因此,促进影像学、生物学、统计学、计算机科学等领域的跨学科合作,开发适用的多组学数据集成和融合人工智能算法及平台,建立标准化的数据处理和分析流程,是解决影像组学与其他组学数据整合这一挑战的重要方向。
3.3 数据解释
多组学数据整合涉及多个生物学层面的数据,这些数据具有不同的特征和复杂的相互关系,不同类型的组学数据可能提供互补的信息,但也可能存在冗余的信息,数据结果的专业性解读涉及到诸多学科背景信息,如何结合不同学科知识进行输出结果的阐释本身也是多组学研究的难点问题。此外,一方面本身基于宏观尺度数据驱动的单一影像组学本质上无法解释潜在的生物学机制;另一方面多组学数据整合分析日趋依赖的深度学习算法模型又具有“黑盒子”的特点,因无准确、完整的公式与定义,输出结果往往亦缺乏生物学解释[5]。因此,整合影像组学的多组学研究存在不可忽视的数据解释难题。
解决这一挑战的可能思路包括[82-83]:① 整合领域知识。除了需要对分子数据进行生物学注释、功能注释和通路分析外,还需更进一步进行跨学科合作和知识共享,以各组学领域的专业判断指导揭示数据中的潜在生物学机制和跨尺度关联。例如,可以通过将领域知识与机器学习方法的结合,即利用生物学知识来指导特征选择和模型构建过程,来提高对多组学数据的解释能力。② 开发可解释的机器学习方法。开发可解释的机器学习方法,例如决策树、规则提取和因果推理方法,可以提供对模型预测的解释。③ 数据可视化。使用数据可视化技术,可以将与模型最终决策最相关的多组学数据可视化呈现,如病理组学中常用的梯度加权类激活图(gradient-weighted class activation mapping,Grad-CAM)[84-85]以及在分子数据中常用的沙普利可加性解释(SHapley Additive exPlanations,SHAP)方法[86-87]。
4 结语
多组学研究在肿瘤领域目前已经取得了一些重要的进展,逐渐成为全面解析肿瘤的重要手段。通过整合影像组学,我们能够更全面地探索肿瘤异质性架构,在分子分型与临床表型之间搭建起桥梁,加速生物学标志物的发现与临床转化步伐。尽管该领域仍面临诸多挑战,如多组学数据集的稀缺性、影像组学与其他组学数据间尺度跨度大、多组学数据整合缺乏可解释性等,但已有大量的持续工作来解决这些问题。随着多组学数据的积累和标准化,以及以深度学习为代表的数据整合方法的进一步改善,肿瘤多组学数据中隐含的知识和规律将变得更加清晰,有望加速推动肿瘤精准诊疗的发展。
重要声明和参考文献略。
引用本文:黄燕琪, 刘再毅. 整合影像组学于多组学研究:揭开肿瘤精准诊疗新视角. 中国普外基础与临床杂志, 2024, 31(3): 257-264. doi: 10.7507/1007-9424.202312050