前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >空间转录组学习笔记-第5周(25年5月14日发表新综述)

空间转录组学习笔记-第5周(25年5月14日发表新综述)

作者头像
生信菜鸟团
发布2025-06-08 16:42:14
发布2025-06-08 16:42:14
640
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

空间转录组学技术主要分为基于成像的 (imaging-based) 和基于测序的 (sequencing-based) 两类,各有其优缺点。基于成像的空间转录组学依赖于RNA探针的杂交和成像,以单细胞甚至亚细胞分辨率测量200-1000个基因的表达。相比之下,基于测序的空间转录组学测量所有基因的表达,但通常未能达到单细胞分辨率。例如,像 Visium v1/v2、Slide-seq v1、DBiT-seq 和 GeoMX DSP 这样的测序技术通常将多个细胞组合在每个空间捕获区域(也称为点,spot)内。更新的技术如 Visium HD 提供了亚细胞分辨率,但迄今为止在实践中,其精细布局和高丢失率 (dropout) 水平目前仍需要将捕获区域进行聚合才能获得合理数量的基因。因此,分析这种由科研界快速产生的数据时,仍然会遇到因缺乏单细胞分辨率而产生的问题。

由于基于测序的空间转录组学分辨率有限,大量用于细胞类型反卷积 (cell-type deconvolution) 的方法被开发出来。该方法旨在估计特定细胞类型对每个空间位置测量的整体转录组的贡献。这些方法通常输出每个空间位置上细胞类型的比例 (proportions)

一、细胞类型反卷积的主要流程

反卷积方法可以根据其是否使用带注释的scRNA-seq数据作为个体细胞基因表达的参考来进行分类。

基于参考的方法(Reference-based deconvolution) 通过以下方式利用 scRNA-seq 数据:将点(spot)的基因表达建模为单细胞基因表达的混合物;或者构建具有代表性的细胞类型基因表达谱。这些方法受益于外部参考数据集,因此提供的结果与通过单细胞研究解读的组织组成的先验知识具有一致性。

然而,这些方法也存在局限性:

  1. 传递不准确性:它们可能将 scRNA-seq 注释中的不准确性传递到空间转录组学分析中。
  2. 无法检测新发现细胞:它们无法检测到新的细胞状态,例如仅在空间转录组学中捕获到的、尚未在 scRNA-seq 参考数据中定义或注释的细胞状态。
  3. 代表性不足:scRNA-seq 数据可能并不总能完全代表空间转录组学数据的细胞类型覆盖范围,而许多基于参考的方法却假设其具有代表性。

无参考方法 (Reference-free deconvolution) 本身不使用 scRNA-seq 数据。因此,它们是在没有预先定义的细胞类型表达谱的情况下估计细胞组成。相反,这些方法使用因子分解 (factor decomposition) 来分析空间转录组学数据中的任何相关性和内在变异。这些分析旨在揭示不同细胞类型对转录组的贡献。

与基于参考的反卷积方法相比,无参考方法在分解任务的下游(即分析推断出的细胞类型时)才引入先验知识。这样做避免了从 scRNA-seq 数据引入由于技术差异造成的偏差。无参考方法特别适用于研究尚未在单细胞水平上表征的组织或发现新的细胞状态。然而,这些方法的核心假设是细胞类型由因子(factors)表示,这些因子是基因程序(gene programmes),其注释高度依赖于所选数据库,也可能反映其他生物过程。此外,没有参考的情况下推断细胞类型受到的限制较少,因此更难解决。

图片
图片

图1|空间转录组学细胞类型反卷积的主要工作流程。 a. 空间转录组数据的收集与预处理。 b. 多模态数据整合。 c. 反卷积算法与输出形式。 d. 下游分析与可视化。反卷积结果的下游分析和可视化使用户能够深入了解细胞类型分布和空间组织。细胞类型空间分布图,细胞微环境检测,细胞互作分析。

二、细胞类型反卷积方法的分类

细胞类型反卷积方法可以根据其数学框架进行分类,如图2所示。

图中黄色部分表示回归框架。使用回归模型进行反卷积涉及根据已知的基因表达谱(通常从 scRNA-seq 数据推断)重建空间转录组学数据,然后将回归模型的系数解释为细胞类型比例。非负最小二乘法(Non-negative least squares, NNLS)阻尼加权最小二乘法(Dampened weighted least squares, DWLS)已被开发用于bulk RNA-seq的反卷积,并随后被改进用于空间转录组学数据的反卷积。NNLS具有高的可解释性并且通过确保非负的细胞类型贡献而适合反卷积。与 NNLS 和 DWLS 等线性回归模型相比,非线性回归模型 (nonlinear regression models) 在捕捉每个空间位置细胞类型贡献的复杂性方面提供了更大的灵活性。

图中紫色部分表示降维框架。降维技术通过将表达矩阵分解为 “因子 x 点” (factor by spot) 和 “基因 x 因子” (gene by factor) 矩阵来揭示基因表达数据中的隐藏结构。第一个矩阵(因子 x 点)代表每个点中细胞类型的存在。第二个矩阵(基因 x 因子)捕获基因特征,即与每种细胞类型相关的特征性基因表达模式。当没有可用的 scRNA-seq 数据或者目标是揭示新的细胞类型或状态时,降维方法对于反卷积特别有价值。尽管这些方法可解释性强且计算高效,但它们还面临着与初始化敏感性以及难以处理噪声大或包含密切相关细胞类型的额外挑战。

图中蓝色部分表示贝叶斯框架。用于反卷积的贝叶斯方法通过为任何贡献变量(例如基因、细胞类型特异性特征、图像特征、技术效应和其他未观测变量)分配概率分布,然后建模它们的依赖关系来估计细胞类型的贡献。这些方法通常使用基因特征或标记基因列表(通常源自 scRNA-seq 数据)来指估计过程。贝叶斯模型细分为三种子类型:主题模型(Topic modelling)基于负二项分布 (negative binomial)的经典贝叶斯模型基于泊松或泊松-伽马分布 (Poisson or Poisson-gamma distributions)的贝叶斯模型

图中绿色部分表示最优传输框架。最优传输方法应用数学优化来对齐和比较来自 scRNA-seq 和空间转录组学的基因表达数据。这些方法通过最小化将基因表达值的分布从 scRNA-seq 转换为空间转录组学分布所需的“代价/成本”,尽可能高效地匹配两个数据集之间的基因表达模式。最优传输是一个高度通用、灵活且强大的框架,然而其有效性在很大程度上取决于成本函数的选择参数设置。此外,这些方法可能受到 scRNA-seq 和空间转录组学数据之间特征重叠不完全的影响,可能会面临计算可扩展性的挑战。

图中红色部分表示深度学习框架。使用深度学习模型的工具通过利用神经网络来识别和学习空间基因表达数据中的复杂模式,从而进行细胞类型反卷积。这些模型对于大型、高维数据集特别有用,因此代表了从空间转录组学进行细胞类型反卷积的主要框架,其中有一个子类别专门针对图神经网络。使用深度学习的方法可以捕捉来自多种模态的复杂而精细的关系并识别细微的模式,这对于学习基因表达模式和图像分类特别有用。这些方法可以进行高度准确的预测,但也遭受深度学习 “黑箱”特性的影响,这阻碍了理解或解释模型如何得出这些预测的能力。未来的反卷积方法可能会专注于可解释性,以阐明这些深度学习模型如何处理空间和多模态数据。

图中灰色部分表示EnDecon方法,它在同类方法中独树一帜,是唯一一种共识方法。

图片
图片

图2|空间转录组学中细胞类型反卷积方法的分类。其中*表示无参考方法。**表示无参考和有参考都可以实现。

三、细胞类型反卷积方法的特征总结

图片
图片

图3|空间转录组反卷积方法特性概览。 左半部:决策树(Decision Tree)根据用户数据类型分析需求筛选工具。判断是否有参考数据、是否有空间坐标、是否有组织学图像选择适用的工具。 右半部:方法特性矩阵。 横轴表示60+种反卷积工具名称,纵轴表示关键特征维度,灰色表示可选。

  1. 输入数据。基于参考或无参考的方法,或者两种皆可。是否有空间坐标或组织图像。
  2. 编程语言。绝大部分为python和R,少部分(2个)为matlab。
  3. 输出数据。大部分工具输出为比例矩阵。
  4. 数学框架。颜色标记与图2一致。
  5. 基准测试验证。黑色表示已验证,白色表示未验证。最右边反卷积工具中,灰色表示尚未经同行评审的方法,需要谨慎采用。

四、多模态数据整合

通过整合外部收集或并行采集的其他模态的数据,可以改进空间转录组学数据的细胞类型反卷积。

1. 整合scRNA-seq数据

利用来自一个或多个外部带注释的 scRNA-seq 数据集的先验知识进行反卷积,可以:

  1. 构建一个参考基因特征矩阵(图4a顶部)。
  2. 构建与模拟的、具有已知细胞类型组成的空间转录组学点相对应的伪点(图4a底部)。
  3. 来自 scRNA-seq 的细胞直接映射到空间转录组学数据上(图 4a中部)。
构建参考基因特征矩阵

参考基因特征矩阵存储了存在于 scRNA-seq 数据中的细胞类型的特征性基因表达值。这些矩阵通过帮助区分相似的细胞类型、标准化样本间比较以及获得与先验知识兼容的反卷积结果来改进反卷积。

在构建参考矩阵之前,每种方法通常涉及与 scRNA-seq 分析共有的预处理步骤,包括基因和细胞过滤、标准化,然后与空间数据进行基因名称交集。这样的质量控制步骤很重要,因为参考矩阵的质量通常对结果的影响比反卷积方法本身更大。基准研究表明,在参考矩阵构建过程中遵循推荐的标准化和基因选择步骤时,细胞类型反卷积方法表现最佳。在基因选择方面,可以通过:

  • 专注于高变基因(highly variable genes, HVG),以捕获 scRNA-seq 的广泛模式,如 GraphST 和 DestVI
  • 执行差异基因表达分析,以识别每种细胞类型的关键标记基因,如CARD 和 RCTD
  • 使用回归方法 来获得基因特征。

重要的是,必须仔细验证和不断完善基因特征,以解决由动态细胞状态引起的反卷积挑战,以及数据质量注释 和整合相关的技术挑战。

计算机模拟构建伪点

伪点是从 scRNA-seq 或空间转录组学(主要是基于成像的)数据以单细胞分辨率生成的合成空间转录组学捕获区域。这些伪点通过采样策略进行模拟,该策略从原始数据集中抽取单细胞信息,可能包含也可能不包含空间关系。然后,在每个伪点内聚合单个细胞的基因表达谱。由于数据是模拟的,细胞类型和数量是已知的,为研究人员提供了具有真实情况的数据,这有助于验证以及训练和优化反卷积方法。

然而,由于空间转录组学数据集的复杂空间相关性和生物变异性,伪点在正确建模这类数据的能力上可能存在局限性。

直接映射单细胞

一些细胞类型反卷积方法直接将来自 scRNA-seq 数据集的单细胞映射到空间转录组学捕获区域。这种方法提供了单细胞定位和基因表达的高分辨率可视化,但有时会导致空间覆盖不完整。

诸如 STEMSeuratCellTrekSpatialScopeRedelistsTangramGraphSTSpaTrio 和 scDOT 等方法使用这种策略,生成映射概率矩阵 或空间单细胞基因表达谱。然而,映射方法可能会受到稀疏的空间覆盖(取决于模型规格)的影响。

图片
图片

图4a|整合注释的单细胞数据。注释的单细胞数据可用于构建特定细胞类型的基因特征矩阵(顶部),直接用于映射(中部)或生成伪点(底部)。

2. 整合图像数据

组织学图像提供了宝贵的空间和表型信息,通过提供关于点内细胞形态和分布的信息,可以改进反卷积。

  • 分割掩模 (segmentation masks) 的方法将组织学图像整合到模型中(如CellPose 、 Ilastik 和 Hovernet),能够将真实的细胞位置和计数纳入模型,从而根据组织细胞构成调整参数。
  • 利用为图像分析开发的深度学习工具(如U-NET、变分自编码器)来提取图像特征。

重要的是,图像质量对结果质量有很大影响,未来的工作应生成(并提供)具有最佳分辨率和最大放大倍数的图像,以确保可靠的结果和细胞形态的利用。

尽管将图像整合到反卷积分析中非常有前景,但由于图像数据与空间转录组学性质不同,这项任务变得复杂;细胞之间的形态学差异不一定与转录差异相匹配。此外,不同切片之间的域偏移(domain shifts)阻碍了这些方法的可转移性。而且,本文回顾的方法中没有一种架构是在组织病理学切片上训练的,这可能会限制它们识别 H&E 图像特定特征的能力。整合图像的框架也比经典框架计算需求高得多。然而,整合组织学特征无疑是该领域未来发展的重要途径,因为它增加了形态学信息,可以帮助识别细胞类型。

图片
图片

图4b|整合组织学图像数据。利用分割工具来计数点中的细胞并确定其空间位置(顶部),使用多种深度学习算法来提取可能特定于点或细胞的形态特征(底部)。

3. 整合空间坐标信息

大多数细胞类型通常不会孤立定位,而是在更大的群体中。空间转录组学数据使得能够整合空间背景,通过提供关于空间邻近性的信息,可以帮助细胞类型反卷积(图 4c)。然而,这一假设在具有独特组成的某些组织类型中或在组织学边界处(例如在高度浸润的免疫细胞、缺氧环境或肿瘤巢周围的癌症相关成纤维细胞中)可能被违背。

几种方法在其工作流程的不同阶段整合了空间坐标。SpatialPrompt 和 SPADE ,分别通过聚合来自 10 个最近邻点的计数和实施空间聚类,在空间转录组学数据预处理期间包含坐标。相比之下,其他方法使用空间相似性工具,例如邻接矩阵(GraphST)或平滑函数(BayesTME)。此外,CARD 整合了一个条件自回归模型以强制空间自相关。SpatialDDLS使用空间正则化。SONAR使用核函数来解释距离。最后,图结构(如最近邻图和图卷积网络)是整合空间关系的常见方式(GraphST )。

将空间坐标整合到反卷积中的有效性需要通过一致的基准测试和明确整合空间关系的模拟来进一步验证。

图片
图片

图4c|整合空间坐标信息。捕获区域的空间组织结构既可以在预处理阶段考虑,也可以作为额外数据用于训练,特别是在图卷积网络中。一些方法(例如 SpatialDDLS)在解卷积后使用空间坐标来执行比例的空间正则化。

五、总结

细胞类型反卷积技术正在取得显著进展,为从空间转录组学角度理解细胞群落的组织提供了新的视角。这一进展在未来的应用中具有巨大潜力,例如解析发育过程、揭示肿瘤微环境结构以及理解病毒与宿主在组织中的相互作用。细胞类型反卷积方法在优势、假设和局限性方面各不相同,这些因素对于正确应用这些策略并选择最合适的分析参数至关重要。这一活跃的研究领域有望加深我们对复杂系统中细胞组织和功能的理解。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、细胞类型反卷积的主要流程
  • 二、细胞类型反卷积方法的分类
  • 三、细胞类型反卷积方法的特征总结
  • 四、多模态数据整合
    • 1. 整合scRNA-seq数据
      • 构建参考基因特征矩阵
      • 计算机模拟构建伪点
      • 直接映射单细胞
    • 2. 整合图像数据
    • 3. 整合空间坐标信息
  • 五、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档