单细胞转录组测序在单细胞层面对转录组进行测序与分析,现正被广泛应用于分析细胞的异质性与多样性。但是,过多的假零表达一直是困扰单细胞转录组数据分析的问题之一,该问题被称为 dropouts ,它会扭曲基因的表达分布,并造成细胞类型分类的错误。而且,由于近年来单细胞测序技术与产业迅速发展,单次单细胞测序实验的通量已从数千个细胞大幅提升到百万级的细胞数量,而对于单个细胞的测序深度则较浅,这使得 dropouts 问题更为严重。
2020 年 7 月 10 日,中山大学中山眼科中心谢志课题组开发了一个名为 DISC 的,基于半监督学习方式的深度学习网络,用于解决 dropouts 问题。通过 DISC 可以推断出被扭曲了表达与结构基因的真实情况。基于 10 个真实的单细胞转录组测序数据集,将 DISC 与其他 7 种高水准推断方法进行比较, DISC 始终优于其他方法。 谢志教授是火狐体育app官网科技生信云平台的重要合作伙伴,双方建立了深入的合作学习关系。 该研究以“ DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning ”为题,发表在国际知名期刊 Genome Biology 上。
DISC 是基于半监督学习方式的深度学习算法,用于解决单细胞测序数据中的假零表达的 dropouts 问题。 DISC 包含一个自动编码器、一个递归预测器、一个计算推算表达式特征的推算器和一个计算重构表达式特征的重构器,推算器用于学习正常基因的表达,重构器同时学习正常基因的表达和推算器分配的零表达基因的伪表达,预测器同时学习正常基因的表达和同一步骤的解码器分配的零表达基因的伪表达,最后推断出假零基因的真实表达。 DISC 还能通过自动编码器将原始数据在保留原始特征的同时进行降维,使其可以把大型数据集压缩到一个较低的维度,使得其在处理时依旧能保持较高的性能。
作者将 DISC 与其他 7 个已有的高水准推断真实表达算法进行比较运行时间与内存占用进行了比较,发现 DISC 在处理大型及超大型数据集,相对于其他算法,运行时间更短,内存占用更少。
接下来为了系统评估 DISC 恢复丢失的基因表达结构的性能,作者使用了三种检验方法进行评估,并与 FISH 的结果进行比较。基因表达分布使用 Gini 系数的 RMSE 进行评估,基因之间的分布相关性用 FF score 评估,基因共表达的相关性用 CMD 评估。结果显示,在 MELANOMA 与 SSCORTEX 两个独立数据集的验证中, 相比于其他算法, DISC 都有很好的恢复丢失基因表达结构的性能。
下一步是验证 DISC 恢复基因真实表达性能,但由于单细胞测序数据无法提供 dropouts 的真实数据,所以使用了来自三个不同单细胞测序平台生成的数据合并后的数据作为参考。作者使用 MAE 评估恢复基因真实表达的准确性, DISC 在所有的数据集中都有极好的表现,显著地恢复了基因表达。对于基因相关性和细胞相关性, DISC 与其他七种方法相比,在所有数据集上的其相关系数都是最高的。而在使用 CMD 评估基因共表达时, DISC 、 scImpute 和 VIPER 与参考最为匹配,而其他方法都产生了大量的假共表达关系。这些数据表明 , DISC 准确恢复了 dropout 产生的基因表达丢失,改善了被扭曲的基因结构。
在修复 dropout 问题的基础上, DISC 能否提高细胞类型识别的准确度你?作者使用了 10X Genomics , Drop-seq 和 SPLiT-seq 三个不同单细胞测序平台产生的数据集,以正确分配的细胞百分比(△ ACC )来反映细胞类型分类的准确性。在三个不同的数据集中, DISC 的性能都是最好的,且许多罕见细胞类型也能很好的恢复。 表明 DISC 能有效提高细胞类型识别的准确性,而且在不同平台不同的数据集中都有稳定的表现。
获得了更好的基因结构是应该能转化为更好的下游分析结果。为了验证下游分析结果的提升,作者使用了三个指标进行评估。一是使用推算的 scRNA-Seq 与 Bulk RNA-Seq 数据之间的 Spearman 相关性评估两组数据的相关性,二是 scRNA-seq 数据和 Bulk RNA-seq 数据识别的差异基因之间的相似性,三是推断的拟时序结果与已知细胞分化顺序之间的相似性。在三个指标评估中, DISC 都有较好的表现, 表明 DISC 能够改善下游分析结果,提供更多的生物学意义信息。
最后,作者使用了真实的小鼠大脑超大型数据集 BRAIN_1.3M 来验证 DISC 的性能,该数据集由多个大脑区域的细胞数据生成,数据量大且复杂。分析得到的结果与 Allen 脑图谱中的已知 Marker 基因进行比较,发现 DISC 的结果在所有算法中更接近图谱的细胞比例,且能更好的识别细分的细胞类型,与常用细胞类型识别工具 Seurat 的结果也更为一致。 结果说明 DISC 能够高效准确地处理超大型复杂单细胞数据集,并能精确分析出主要和稀有细胞群。
综上所述, DISC 提供了一个单细胞数据的通用解决方案,对于具有稀有表达的基因,以及超大型数据集都有很好的处理性能,最大限度地减少了信息丢失。 DISC 将成为快速发展的单细胞测序技术极大的助力。
原文链接: https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02083-3
上海火狐体育app官网生物成立十年始终秉乘“创新、求实、前沿”的企业理念和“以客户为根本”的服务宗旨,凭借高通量测序平台及NovelBrain®云平台生信分析的双重优势,致力于提供高品质、高效率的技术服务。截止目前, 火狐体育app官网已和1000+家顶尖科研机构、医院和医药企业合作了5000+项重要项目。
详情咨询当地销售或者电话021-51827998
火狐体育app官网NovelBrain®单细胞云平台
不仅助 力算法开发,还 可以 自己轻松做数据分析~
国内最大的生物云平台供应商,顶尖的云计算架构团队,两年精心研发,历经数千项目检验。
0代码分析过程、一键式结果报告、三维可视化的单细胞浏览器, 助力每一位科研工作者摆脱生信代码的烦恼,只需上传数据,即可轻松分析数据,深入挖掘生物学意义。
60+项前沿单细胞分析工具,简单便捷化拖拽操作、高度定制化分析流程, 大幅度提升单细胞数据分析效率。
快来注册-登录,体验一下吧!
网址:singlecell.novelbrain.com
火狐体育app官网 单细胞浏览器 教你完美解读scRNA-Seq数据分析结果
利用 NovelBrain单细胞云 探寻新冠病毒受体ACE2在人体器官中的分布
单细胞云平台数据分析教程:
热点回顾: