当前位置：首页 > news >正文

【论文阅读】Multi-modal Spatial Clustering for Spatial Transcriptomics Utilizing High-resolution Histology

news 2026/6/12 11:35:30

代码地址：https://github.com/NabaviLab/stMMC

摘要

理解生物组织中复杂而精细的细胞环境对于揭示复杂生物学功能具有重要意义。尽管单细胞 RNA 测序技术显著提升了我们对细胞状态的认识，但其缺乏空间位置信息，难以全面刻画细胞所处的空间环境。空间转录组技术（Spatial Transcriptomics，ST）通过在保留空间位置信息的同时实现全转录组水平的表达谱分析，有效弥补了这一不足。

空间聚类是 ST 数据分析中的关键挑战之一。现代 ST 测序流程通常伴随高分辨率的组织学图像，已有研究表明，该类图像与基因表达谱之间存在密切关联。然而，现有空间聚类方法往往未能充分利用图像信息，从而限制了其对关键空间结构和细胞相互作用的刻画能力。

针对上述问题，本文提出了一种空间转录组多模态聚类模型（spatial transcriptomics multi-modal clustering，stMMC）。该模型是一种基于对比学习的深度学习方法，通过多模态并行图自编码器，将基因表达数据与组织学图像特征进行有效融合。在两个公开的 ST 数据集上，将 stMMC 与四种当前先进的基线模型进行了对比实验。实验结果表明，stMMC 在 ARI 和 NMI 指标上均表现出显著优势，消融实验进一步验证了模型各关键组成模块的有效性。

引言

生物组织样本中包含高度复杂的细胞过程，这些过程由细胞分布模式、细胞类型、细胞状态、组织组成以及细胞间相互作用等多种因素共同塑造 [1]。这些信息对于理解组织的发育、修复以及对外界信号的响应至关重要 [1]，[2]。近年来，单细胞 RNA 测序技术在效率、可及性和准确性方面取得了显著发展，使研究人员能够深入解析细胞状态，并促进了新细胞类型的发现 [3]。然而，尽管单细胞测序为细胞层面的研究提供了重要洞见，其缺乏空间上下文信息，限制了我们对细胞在组织环境中如何共存、相互作用与交流机制的理解 [4]，[5]。

空间转录组技术（Spatial Transcriptomics，ST）通过在保留空间位置信息的同时实现全转录组范围的表达谱分析，有效弥补了这一不足 [6]，[7]。该研究由美国国家科学基金会（NSF）资助，使研究者能够超越传统的细胞聚类分析，进一步探索更高层次的组织结构。在 ST 数据分析流程中，空间聚类已成为下游分析的标准起点，例如组织解剖结构可视化、区域依赖性生物标志物的发现以及分子调控网络的构建等 [8]–[11]。随着 Visium [12]、seqFISH+ [13] 和 MERFISH [14] 等技术的不断成熟和普及，ST 数据规模迅速增长，对先进空间聚类方法的需求也日益迫切。

当前 ST 测序流程通常包含高分辨率的组织学图像。已有研究表明，组织学图像特征与基因表达之间存在紧密关联 [15]，[16]。然而，大多数现有分析方法尚未充分融合空间信息、组织学图像与基因表达数据，这在一定程度上限制了聚类模型从图像中提取关键生物学信息的能力，例如细胞间相互作用以及细胞状态的空间变化。

在上述背景下，如何在融合空间与图像上下文的条件下，从基因表达谱中挖掘有效模式，仍是空间转录组分析中的一项重要挑战。为此，本文提出了一种新的基于对比学习的深度学习模型——空间转录组多模态聚类模型（spatial transcriptomics multi-modal clustering，stMMC）。该模型通过并行图自编码器，将基因表达数据与组织学图像特征进行融合，并利用对比学习机制对各模态的特征提取过程进行约束。

本文的主要贡献包括：
(i) 提出了一种基于高分辨率组织学图像的多模态对比学习空间聚类方法 stMMC，用于空间转录组数据分析；
(ii) 证明了融合基因表达数据与学习得到的组织学图像特征能够显著提升空间聚类性能，为相关研究提供了新的思路；
(iii) 通过多组基准数据实验验证了所提出方法在性能上的显著优势。

模型

如图 1 所示，所提出的模型由三个主要模块组成：
(i)多模态并行图自编码器（multi-modal parallel graph autoencoder，MPGA），由两个相互独立的图自编码器（Graph Autoencoder，GAE）构成；
(ii)对比学习模块，通过引入扰动图（corrupted graph），利用对比学习机制对每个 GAE 的表示学习过程进行约束；
(iii)解码与聚类模块，通过图解码器重构基因表达数据，并对精炼后的基因表达表示进行聚类，从而获得最终的空间聚类结果。

A. 问题定义

设一个空间转录组数据集包含 N 个空间点（spot），每个空间点具有 M 个基因测序读数，记为

XG={x1G,x2G,…,xNG}∈RN×M.

在 stMMC 模型中，默认选取方差最高的 M=3000个基因作为输入特征。

对于组织学图像，从每个空间点对应的位置中提取一个正方形图像块（patch），并使用一个在 ImageNet 上预训练的自编码器对这些图像块进行特征提取。提取得到的图像特征表示为

XI∈RN×D,

其中 D表示图像特征的维度。

为更充分地结合空间位置信息、基因表达数据和组织学图像特征，本文为每一种模态分别构建图结构，并在构图过程中引入来自另一模态的关系信息。例如，在构建基因表达模态的图时，利用组织学图像模态中的空间邻近信息；反之，在构建图像特征模态的图时，引入基因表达模态中的相似性信息。通过这种方式，在特征聚合与融合之前即可实现多模态信息的交互。

具体而言，基因表达模态的图定义为

GG=(XG,VS,EG),

其中 XG 表示基因表达特征，VS为节点集合，每个节点对应样本中的一个空间点，EG 为基于空间点之间距离关系构建的边集合。其对应的邻接矩阵记为 AG，当空间点 i 与 j 在物理距离上相邻时，Aij=1，否则 Aij=0。对于图 GG中的任一空间点 i，选取其 K=3 个最近邻空间点建立连接。

图像特征模态的图定义为

GI=(XI,VS,EI),

其中 XI为图像特征，VS为共享的空间点节点集合，EI 为基于基因表达相似性构建的边集合。为计算相似性边，首先对基因表达数据进行 PCA 降维，然后基于欧氏距离采用 KNN 方法，为每个空间点选取 K=3个最近邻空间点。其对应的邻接矩阵记为 AI，当空间点 i 与 j 的基因表达相似时，Aij=1，否则 Aij=0。

综上，本文为每一种模态分别构建了一个独立的图结构，这些图共享相同的节点集合，但具有不同的节点属性和边集合，并通过边结构引入来自另一模态的信息，从而实现多模态特征的有效融合。

B. 多模态并行图自编码器（Multi-modal Parallel Graph Autoencoder）

为充分提取各模态中的有效信息，MPGA 模块中采用了两个相互独立的图自编码器（Graph Autoencoder，GAE），分别用于建模基因表达模态与图像特征模态。其编码过程定义如下：

两个模态的初始特征分别设定为：

ZI(0)=XI,ZG(0)=XG.

在每一层中，将两个 GAE 学习得到的特征通过加权方式进行聚合：

其中 αl 为第 l 层的可学习权重，L 表示 GCN 的总层数。

最终得到的聚合特征 Z(L)作为 MPGA 的输出，并输入至图解码器中。图解码器用于重构基因表达数据，其形式定义为：

对应的重构损失函数定义为：

C. 对比学习模块（Contrastive Learning Module）

对比学习是一种新兴的无监督表示学习技术，能够有效提升嵌入特征的判别能力，近年来已在多种任务中展现出良好性能。其核心思想是构造正负样本对，在特征空间中拉近正样本对的距离，同时拉远负样本对的距离。

受 Deep Graph Infomax 方法 [25] 的启发，本文为每一种模态构建一个扰动图（corrupted graph），通过在保持图拓扑结构不变的情况下随机打乱节点特征来生成。对于基因表达模态和图像特征模态，扰动图分别表示为：

其中 EProximity 和 ESimilarity在打乱过程中保持不变。

扰动图被输入至对应模态的 GAE 中，得到扰动后的嵌入表示，分别记为 ZG∗和 ZI∗。

为捕获空间点之间的局部社区结构信息，本文为每个空间点计算社区表示，其定义如下：

其中 zj,m表示第 j 个空间点在第 m 个模态下的嵌入表示，Neb(i) 表示空间点 i 的一阶邻居集合。

在对比学习过程中，将原始图中空间点 i 的嵌入表示 zi,m与其社区表示 gi,m视为正样本对，而将扰动图中得到的嵌入表示 zi,m∗与原始社区表示 gi,m 视为负样本对。该对比机制的核心目标是：在潜在空间中，使 gi,m 与对应的原始嵌入 zi,m 尽可能接近，同时与扰动嵌入 zi,m∗保持足够距离。图 2 展示了该过程在随机选取空间点上的示意图。

为区分正负样本对，本文采用一个基于神经网络的判别器 Θ(⋅)，用于计算样本对 (zi,m,gi,m)为正样本对的概率得分。对比学习损失函数基于二元交叉熵损失定义为：