tyc7111cc太阳成集团

洞察市场格局
解锁药品研发情报

免费客服电话

18983288589
医药数据查询

CellFM大模型:亿级细胞×8亿参数,领航单细胞智能分析新纪元

细胞智能分析
05/21
14


01
前言

单细胞测序技术的飞速发展,带来了海量数据,也伴随噪声、稀疏性和批次效应等挑战。如何使用统一的框架最大程度地利用这些数据,成为领域里亟待解决的问题。大语言模型(LLM)如ChatGPT等,已经在多个领域展现了强大的泛化能力, 这为单细胞大语言模型的诞生提供了灵感。然而,现有的单细胞大模型大多受限于数据规模,性能难以突破瓶颈。


企业微信截图_17477898978221.png

新格元生物联合中山大学、重庆大学和华为合作开发的CellFM,凭借1亿单细胞标准数据集和8亿参数量,一举打破了传统模型的限制,为单细胞智能分析带来了全新的突破。这项研究成果于2025年5月20日发表在《Nature Communications》杂志上,标志着单细胞分析进入了一个全新的时代。



02
模型简介:强大架构,高效运行

CellFM汇集了来自各公共数据库的约2万份样本,涵盖多种组织、疾病状态及测序平台。这些数据经过新格元SynEcoSys®数据库的标准化处理,并基于华为MindSpore AI框架开发,CellFM是一种“值投影”模型,将连续的基因表达值映射到高维向量空间,完整的保留了原始信息。


CellFM由三大核心模块组成:嵌入、ERetNet和LoRA,兼顾性能和效率。


a. 嵌入模块将一维基因表达标量映射到高维。CellFM像在玩“拼图游戏”:随机遮盖部分基因表达,再依靠剩余基因复原拼图。通过不断校正拼图,网络逐渐学习到基因间的协同作用。这种无需人工标签的自监督“掩码重建”,使网络拥有更强的泛化能力,为下游零样本任务建立基础。



b. 40层ERetNet模块构成CellFM主干。每层ERetNet包含门控多头注意力(MHA)、简单门控线性(SGLU)和层归一化(LN)单元。MHA类似多部摄像头,多角度监控基因作用网络,再拼接成全景图,极大提升模型对全局模式的感知力。ERetNet还配备“留存”机制,将注意力的计算复杂度从序列长度的平方级降低至线性,大幅提升在数千基因序列上的计算效率。SGLU和采用DeepNorm的LN都是ERetNet创新引入的,共同改善了网络在训练和推理中的稳定性、收敛速度和表示能力。



c. 低秩适配(LoRA)模块使模型在微调阶段只需“打补丁”,无需重新训练整个模型,大幅降低可训练参数和计算开销,从而在面对新数据和新任务时实现低成本部署。

图1.CellFM框架概述。CellFM由嵌入模块、ERetNet模块和LoRA模块组成。每层ERetNet模块集成了MHA、SGLU和LN单元。





03
应用场景与优势:全方位超越

大量实验结果表明,预训练完成后的CellFM在各项单细胞下游零样本任务中表现均优于现有模型,如scGPT和scFoundation等:


a. 基因功能预测:基因功能预测是生命科学研究的基础。传统的生物学研究需要大量实验,而CellFM大模型通过虚拟预测,能够快速锁定功能靶点,依靠“计算先行、实验验证”,构建AI for Science高效研究新范式。CellFM可以对不同生物学功能的基因进行准确分类,在三种二分类问题中准确率(Accuracy,缩写ACC)都位列第一,如剂量敏感性任务较UCE和scGPT分别提升5.68%和5.86%,且UMAP可视化显示出更清晰的基因簇分布。

图2.各模型在3种基因功能二分类任务中的ACC对比。CellFM在3种任务中都获得了最高的ACC。



b. 扰动响应/靶点基因预测:CellFM能够模拟细胞对基因敲除、过表达或药物处理的响应,快速筛选潜在的药物作用或基因调控结果。用CellFM的基因嵌入向量替换经典扰动模型GEARS的嵌入向量,在Adamson和Norman数据集上,差异基因变化的Pearson相关系数在所有对比模型中最优。CellFM还能够根据扰动反向预测靶点基因,例如基于疾病样本中的异常细胞,逆推出可能导致该表型的关键基因或药物靶点。CellFM反向扰动预测的Top10命中率比scGPT高18.1%;且Top3命中率达到了scGPT的2倍,显著提升寻找靶点基因的效率。

图3.各模型扰动靶点基因预测命中率。CellFM的Top1-Top10命中率均领先其他模型。



c. 细胞类型注释:细胞类型注释是单细胞测序分析的关键环节。CellFM能够对新样本进行高精度、低门槛的细胞注释,极大减少人工标注成本。加速未知细胞群的识别与功能探索,为药物筛选中发现关键响应细胞群奠定基础。CellFM对同批次和跨批次数据都可以精确注释,ACC均位列所有对比模型榜首。如免疫数据集中, CellFM能准确预测大多数类型,而scGPT仅能预测主要类型。在跨批次数据中,CellFM也能够显著抵抗批次效应,保障结果一致性,提升候选靶点验证效率和可靠性。

图4.各模型对同批次数据集的细胞类型注释准确率热图。





04
总结

新格元生物基于自主单细胞大数据挖掘平台SynEcoSys®,在数据获取和标准化方面的深厚积累,参与开发了目前最先进的虚拟人类细胞基础模型CellFM。CellFM将高质量的亿级数据与自监督掩码学习、注意力机制和LoRA模块等前沿AI技术深入融合,展现出强大的通用表征和迁移能力,在多类零样本任务中全面超越现有大模型。未来,CellFM将为AI虚拟细胞、多模态组学融合、智能药物筛选等应用奠定坚实基础。


我们将于7月份在广州举办CellFM模型发布和研讨会,届时将分享更多精彩内容,期待与您相聚!新格元期待与更多合作伙伴携手,共同推动单细胞组学迈向“数据驱动+AI协同”的智能化分析新时代。


原文链接:
https://doi.org/10.1038/s41467-025-59926-5



- THE END -


往期推荐


学习正当时--2025年第二期单细胞数据分析精品培训班火热开课啦!

直播预告 | 从高通量到超精准--Tensor与V3试剂盒的革命性突破

项目文章 | Nature:于洋、石玮团队合作揭示星形母细胞瘤的分子密码


供稿:生信与数据中心


想了解更多关于单细胞测序信息,欢迎点击“阅读原文”留下联系方式,我们将安排同事与您对接。




*版权声明:本网站所转载的文章,均来自互联网,旨在传递更多信息。鉴于互联网的开放性和文章创作的复杂性,我们无法保证所转载的所有文章均已获得原作者的明确授权。如果您是原作者或拥有相关权益,请与我们联系,我们将立即删除未经授权的文章。本网站转载文章仅为方便读者查阅和了解相关信息,并不代表我们认同其观点和内容。读者应自行判断和鉴别转载文章的真实性、合法性和有效性。
AI+生命科学全产业链智能数据平台
综合评分:0

收藏

发表评论
评论区(0
    tyc7111cc太阳成集团企业版
    50亿+条医药数据随时查
    7天免费试用
    体验产品
    摩熵数科开放平台

    最新报告

    更多
    • 摩熵咨询医药行业观察周报(2025.06.09-2025.06.15)
      2025-06-15
      26
    • 摩熵咨询医药行业观察周报(2025.06.02-2025.06.08)
      2025-06-08
      24
    • 摩熵咨询医药行业观察周报(2025.05.26-2025.06.01)
      2025-06-01
      21
    • 2025年5月仿制药月报
      2025-05-31
      15
    • 2025年5月全球在研新药月报
      2025-05-31
      32
    AI应用帮助
    添加收藏
      新建收藏夹
      取消
      确认