当前位置: 首页 > news >正文

【论文阅读】Multi-modal Spatial Clustering for Spatial Transcriptomics Utilizing High-resolution Histology

代码地址:https://github.com/NabaviLab/stMMC


摘要

理解生物组织中复杂而精细的细胞环境对于揭示复杂生物学功能具有重要意义。尽管单细胞 RNA 测序技术显著提升了我们对细胞状态的认识,但其缺乏空间位置信息,难以全面刻画细胞所处的空间环境。空间转录组技术(Spatial Transcriptomics,ST)通过在保留空间位置信息的同时实现全转录组水平的表达谱分析,有效弥补了这一不足。

空间聚类是 ST 数据分析中的关键挑战之一。现代 ST 测序流程通常伴随高分辨率的组织学图像,已有研究表明,该类图像与基因表达谱之间存在密切关联。然而,现有空间聚类方法往往未能充分利用图像信息,从而限制了其对关键空间结构和细胞相互作用的刻画能力。

针对上述问题,本文提出了一种空间转录组多模态聚类模型(spatial transcriptomics multi-modal clustering,stMMC)。该模型是一种基于对比学习的深度学习方法,通过多模态并行图自编码器,将基因表达数据与组织学图像特征进行有效融合。在两个公开的 ST 数据集上,将 stMMC 与四种当前先进的基线模型进行了对比实验。实验结果表明,stMMC 在 ARI 和 NMI 指标上均表现出显著优势,消融实验进一步验证了模型各关键组成模块的有效性。

引言

生物组织样本中包含高度复杂的细胞过程,这些过程由细胞分布模式、细胞类型、细胞状态、组织组成以及细胞间相互作用等多种因素共同塑造 [1]。这些信息对于理解组织的发育、修复以及对外界信号的响应至关重要 [1],[2]。近年来,单细胞 RNA 测序技术在效率、可及性和准确性方面取得了显著发展,使研究人员能够深入解析细胞状态,并促进了新细胞类型的发现 [3]。然而,尽管单细胞测序为细胞层面的研究提供了重要洞见,其缺乏空间上下文信息,限制了我们对细胞在组织环境中如何共存、相互作用与交流机制的理解 [4],[5]。

空间转录组技术(Spatial Transcriptomics,ST)通过在保留空间位置信息的同时实现全转录组范围的表达谱分析,有效弥补了这一不足 [6],[7]。该研究由美国国家科学基金会(NSF)资助,使研究者能够超越传统的细胞聚类分析,进一步探索更高层次的组织结构。在 ST 数据分析流程中,空间聚类已成为下游分析的标准起点,例如组织解剖结构可视化、区域依赖性生物标志物的发现以及分子调控网络的构建等 [8]–[11]。随着 Visium [12]、seqFISH+ [13] 和 MERFISH [14] 等技术的不断成熟和普及,ST 数据规模迅速增长,对先进空间聚类方法的需求也日益迫切。

当前 ST 测序流程通常包含高分辨率的组织学图像。已有研究表明,组织学图像特征与基因表达之间存在紧密关联 [15],[16]。然而,大多数现有分析方法尚未充分融合空间信息、组织学图像与基因表达数据,这在一定程度上限制了聚类模型从图像中提取关键生物学信息的能力,例如细胞间相互作用以及细胞状态的空间变化。

在上述背景下,如何在融合空间与图像上下文的条件下,从基因表达谱中挖掘有效模式,仍是空间转录组分析中的一项重要挑战。为此,本文提出了一种新的基于对比学习的深度学习模型——空间转录组多模态聚类模型(spatial transcriptomics multi-modal clustering,stMMC)。该模型通过并行图自编码器,将基因表达数据与组织学图像特征进行融合,并利用对比学习机制对各模态的特征提取过程进行约束。

本文的主要贡献包括:
(i) 提出了一种基于高分辨率组织学图像的多模态对比学习空间聚类方法 stMMC,用于空间转录组数据分析;
(ii) 证明了融合基因表达数据与学习得到的组织学图像特征能够显著提升空间聚类性能,为相关研究提供了新的思路;
(iii) 通过多组基准数据实验验证了所提出方法在性能上的显著优势。

模型

如图 1 所示,所提出的模型由三个主要模块组成:
(i)多模态并行图自编码器(multi-modal parallel graph autoencoder,MPGA),由两个相互独立的图自编码器(Graph Autoencoder,GAE)构成;
(ii)对比学习模块,通过引入扰动图(corrupted graph),利用对比学习机制对每个 GAE 的表示学习过程进行约束;
(iii)解码与聚类模块,通过图解码器重构基因表达数据,并对精炼后的基因表达表示进行聚类,从而获得最终的空间聚类结果。

A. 问题定义

设一个空间转录组数据集包含 N 个空间点(spot),每个空间点具有 M 个基因测序读数,记为

XG={x1G,x2G,…,xNG}∈RN×M.

在 stMMC 模型中,默认选取方差最高的 M=3000个基因作为输入特征。

对于组织学图像,从每个空间点对应的位置中提取一个正方形图像块(patch),并使用一个在 ImageNet 上预训练的自编码器对这些图像块进行特征提取。提取得到的图像特征表示为

XI∈RN×D,

其中 D表示图像特征的维度。

为更充分地结合空间位置信息、基因表达数据和组织学图像特征,本文为每一种模态分别构建图结构,并在构图过程中引入来自另一模态的关系信息。例如,在构建基因表达模态的图时,利用组织学图像模态中的空间邻近信息;反之,在构建图像特征模态的图时,引入基因表达模态中的相似性信息。通过这种方式,在特征聚合与融合之前即可实现多模态信息的交互。

具体而言,基因表达模态的图定义为

GG=(XG,VS,EG),

其中 XG 表示基因表达特征,VS为节点集合,每个节点对应样本中的一个空间点,EG​ 为基于空间点之间距离关系构建的边集合。其对应的邻接矩阵记为 AG,当空间点 i 与 j 在物理距离上相邻时,Aij=1,否则 Aij=0。对于图 GG中的任一空间点 i,选取其 K=3 个最近邻空间点建立连接。

图像特征模态的图定义为

GI=(XI,VS,EI),

其中 XI为图像特征,VS为共享的空间点节点集合,EI 为基于基因表达相似性构建的边集合。为计算相似性边,首先对基因表达数据进行 PCA 降维,然后基于欧氏距离采用 KNN 方法,为每个空间点选取 K=3个最近邻空间点。其对应的邻接矩阵记为 AI​,当空间点 i 与 j 的基因表达相似时,Aij=1,否则 Aij=0。

综上,本文为每一种模态分别构建了一个独立的图结构,这些图共享相同的节点集合,但具有不同的节点属性和边集合,并通过边结构引入来自另一模态的信息,从而实现多模态特征的有效融合。

B. 多模态并行图自编码器(Multi-modal Parallel Graph Autoencoder)

为充分提取各模态中的有效信息,MPGA 模块中采用了两个相互独立的图自编码器(Graph Autoencoder,GAE),分别用于建模基因表达模态与图像特征模态。其编码过程定义如下:

两个模态的初始特征分别设定为:

ZI(0)=XI,ZG(0)=XG.

在每一层中,将两个 GAE 学习得到的特征通过加权方式进行聚合:

其中 αl​ 为第 l 层的可学习权重,L 表示 GCN 的总层数。

最终得到的聚合特征 Z(L)作为 MPGA 的输出,并输入至图解码器中。图解码器用于重构基因表达数据,其形式定义为:

对应的重构损失函数定义为:


C. 对比学习模块(Contrastive Learning Module)

对比学习是一种新兴的无监督表示学习技术,能够有效提升嵌入特征的判别能力,近年来已在多种任务中展现出良好性能。其核心思想是构造正负样本对,在特征空间中拉近正样本对的距离,同时拉远负样本对的距离。

受 Deep Graph Infomax 方法 [25] 的启发,本文为每一种模态构建一个扰动图(corrupted graph),通过在保持图拓扑结构不变的情况下随机打乱节点特征来生成。对于基因表达模态和图像特征模态,扰动图分别表示为:

其中 EProximity 和 ESimilarity在打乱过程中保持不变。

扰动图被输入至对应模态的 GAE 中,得到扰动后的嵌入表示,分别记为 ZG∗和 ZI∗。

为捕获空间点之间的局部社区结构信息,本文为每个空间点计算社区表示,其定义如下:

其中 zj,m表示第 j 个空间点在第 m 个模态下的嵌入表示,Neb(i) 表示空间点 i 的一阶邻居集合。

在对比学习过程中,将原始图中空间点 i 的嵌入表示 zi,m与其社区表示 gi,m视为正样本对,而将扰动图中得到的嵌入表示 zi,m∗与原始社区表示 gi,m​ 视为负样本对。该对比机制的核心目标是:在潜在空间中,使 gi,m​ 与对应的原始嵌入 zi,m 尽可能接近,同时与扰动嵌入 zi,m∗保持足够距离。图 2 展示了该过程在随机选取空间点上的示意图。

为区分正负样本对,本文采用一个基于神经网络的判别器 Θ(⋅),用于计算样本对 (zi,m,gi,m)为正样本对的概率得分。对比学习损失函数基于二元交叉熵损失定义为:

D. 聚类模块(Clustering Module)

重构后的数据通过独立的聚类模块用于空间聚类分析。stMMC 默认采用mclust算法 [26] 进行聚类,同时也支持其他常见的聚类方法。

在实验过程中,观察到 stMMC 的聚类结果中,部分空间点的聚类标签与其局部邻域内空间点的聚类结果不一致,尤其在人工标注的数据集中,这种现象会导致聚类性能下降。为缓解该问题,本文引入了一种可选的平滑处理步骤。

具体而言,在聚类模块生成初始聚类结果后,根据每个空间点的最近 b 个邻居的聚类标签进行重新赋值,即将该空间点重新分配到其邻域内出现次数最多的聚类类别中。实验中将 b 的最优取值设为 50。

实验


空间转录组数据的聚类分析

http://www.cnnetsun.cn/news/42825.html

相关文章:

  • Day36官方文档的阅读
  • Windows右键菜单终极优化指南:让你的右键菜单重获新生
  • ZTools v1.1.2:桌面应用启动器与搜索工具
  • Flutter Android APK 重命名 签名验证操作
  • MarchingCubes 网格数据体素化并提取等值面
  • 基于SpringBoot的餐厅推荐系统 计算机毕业设计选题 计算机毕设项目 前后端分离 【源码-文档报告-代码讲解】
  • 禁用MinIO后的7种企业级替代方案评测
  • document.querySelector在电商网站中的5个实战应用
  • 企业级应用:OpenJDK1.8在生产环境中的部署实践
  • Homebrew实战:从安装到开发环境搭建全流程
  • 企业级Git仓库SSH连接安全最佳实践
  • Day12 贝叶斯优化可视化和随机森林的解读
  • 数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?
  • 告别开题报告模板拼凑!虎贲等考 AI 智能生成,让选题逻辑从模糊想法变身可执行研究计划
  • 【LeetCode刷题】跳跃游戏
  • 鸿蒙PC UI控件库 - PasswordInput 密码输入框详解
  • day37简单的神经网络@浙大疏锦行
  • 【水果识别】基于机器视觉苹果和香蕉的成熟度和大小检测附Matlab代码
  • JAVA的平凡之路——此峰乃是最高峰JVM-附加小菜-04
  • 【电力系统】电力系统优化与控制热液调度附Matlab代码和报告
  • 基于6种最新算法(小龙虾优化算法COA、MSA、RTH、NOA、BFO、SWO)求解机器人路径规划研究附Matlab代码
  • Golang实战:构建综合多头(逾期+反欺诈)风险查询的高性能客户端
  • 【TSP问题】基于蜣螂算法DBO和改进的蜣螂算法FADBO求解旅行商TSP问题(可根据自己的经纬度设置自己想要到达的地区)附Matlab代码
  • 【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析附Matlab代码
  • 数据结构:二叉排序树,平衡二叉树,红黑树的介绍
  • 软件复用的分类与实现
  • google服务
  • 进程PCB
  • 实战教程:1小时掌握逆向Unity游戏 (共13课时)
  • [从零构建操作系统]08 函数调用时栈的底层行为解析