近期,国内研究学者研发出了全球规模最大的单细胞基础大模型。
由中山大学杨跃东研究团队牵头,联合重庆大学曾远松团队、华为、新格元生物科技,基于国家超算广州中心“天河星逸”超算系统以及华为国产智能芯片研发的单细胞基础大模型 CellFM,已在《Nature Communications》期刊发表。
CellFM 模型整合了超过1亿个人类单细胞数据,构建了包含8亿参数的深度学习架构,被认为是目前全球规模最大的单细胞基础大模型。
CellFM 的成功研发突破了传统单细胞分析中样本量与模型容量的限制,有望加速推动单细胞组学的应用拓展,促进疾病机制研究和个性化医疗的发展。
单细胞测序技术能够精准揭示细胞间的基因表达异质性,但目前存在的数据噪声大、批次效应强和数据稀疏等问题亟待解决。
近年来众多研究者尝试用海量数据训练单细胞基础模型,但现有的人类细胞基础模型仍然受到训练数据和模型参数大小的限制。
为突破这一技术瓶颈,杨跃东教授团队从公共数据中收集了大量的单细胞数据集,然后对这些数据进行清洗和统一格式的标准化,并编译出了一个包含大约 1 亿个人类细胞的数据集,并基于此数据集研发了一个包含8亿参数的单细胞基础模型—— CellFM,其规模是当前单一物种大模型的8倍。
实验表明 CellFM 在基因功能预测、扰动预测、细胞注释和基因关系方面识别优于现有单细胞模型。
基因功能预测是研究生物学的核心基础。传统生物学研究通常需要进行大量实验验证,而 CellFM 大模型采用的是“先计算、后实验”的 AI for Science 新型研究模式,通过虚拟预测快速确定功能靶点。
CellFM 在3个基因功能预测任务上表现优异,平均准确率分别比 UCE 和 scGPT 高了 5.68% 和 5.86%。根据 UMAP 生成的可视化结果可以看出 CellFM 的基因簇分布更清晰,进一步证实了 CellFM 在基因功能预测的准确性更高。
扰动反应预测对研究药物效果、疾病机制和治疗干预至关重要。
CellFM 通过模拟细胞对基因敲除、过表达或药物处理的响应,快速筛选隐藏的药物作用或基因调控结果。
用 CellFM 的基因嵌入向量代替经典扰动模型 GEARS 的嵌入向量,以 Pearson 相关系数、均方误差等数值作为衡量标准,CellFM 在 Adamson 和 Norman 数据集上的预测基因差异变化优于其他单细胞基础模型。
CellFM 还能通过扰动反向推测靶点基因,基于 Norman 数据集评估了 CellFM 等模型在“计算机反向扰动预测”中的表现,发现 CellFM 准确率更高,前10的预测准确率高达81.8%,且前3的预测准确率是 scGPT 的2倍,提升了发现功能基因组学与药物靶点基因的效率。
细胞类型注释是单细胞数据分析的重要一环。CellFM 可以精准注释同批次和跨批次数据,大大减少人工注释的成本,以更低的门槛实现高精度的细胞注释。
CellFM 在细胞注释中的平均准确率(ACC)为 92.91%,比排名第二的单细胞基础模型 scFoundation 高出 2.02%。
CellFM 在跨批次数据注释中效果也相对精准,平均准确率比排名第二的单细胞基础模型 scFoundation 高出 2.3%
CellFM 能够有效识别基因间的调控关系,特别是在免疫细胞中。相比传统共表达网络,CellFM 能够发现更多富集通路,为揭示细胞特异性信号通路及免疫机制提供了新的视角,推动了疾病机理研究和精准治疗策略的发展。
CellFM 作为目前规模领先的单细胞基础大模型,标志着生命科学与智能计算融合的重大突破。未来 CellFM 有望在生命科学和临床应用中发挥更大作用,推动“AI for Science”在生命科学领域的深入发展。
作为“中国智造”的大模型,CellFM 为疾病机制研究、药物开发和个性化医疗提供了有力支持,也彰显了中国在生命科学领域的自主创新能力。