查看原文
其他

使用harmony等算法去除单细胞样品差异得谨慎

生信技能树 生信技能树 2022-08-15

昨天我们分享了:《 细胞亚群细分的时候仍然是要选择harmony等算法去除样品差异  》,有粉丝留言提到这个使用harmony等算法去除样品差异,不应该是最开始就弄吗。为什么要到细分亚群的时候才做呢?

我们仍然是以 这个单细胞转录组文献,《Single-cell transcriptomics reveals regulators underlying immune cell diversity and immune subtypes associated with prognosis in nasopharyngeal carcinoma》为例子,15个鼻咽癌样品,加上1个正常人样品。全部的样品的单细胞转录组数据整合后,如果不使用harmony等算法去除样品差异,默认的降维聚类分群,如下所示:

 

我们根据左边的标记基因以及生物学背景知识,可以进行如下所示的命名:

 

可以看到,效果还不错,很有意思, 给大家的感觉是 harmony等算法去除样品差异并不是必须的。但是如果我们具体到每个样品,有如下所示的现象:

 

可以看到,首先上皮细胞大的亚群里面,每个病人独立成为小亚群,泾渭分明,这个符合预期,因为每个肿瘤病人都有自己的特异性。但是免疫细胞各个亚群里面,病人之间的界限就模糊很多。值得注意的是P07这个病人的样品,它主要是T细胞和髓系细胞,而且是独立成为一个亚群了,这就是单细胞转录组的样品差异,理论上是需要去除的!

有意思的事情就来了

如果我们在样品层面就开始使用harmony等算法去除样品差异,又会导致另外一个可怕的事情发生,如下所示:

 

就是本来是应该是具备病人特异性的上皮细胞,这个时候被抹除了样品差异。

好好的上皮细胞,被拆分的七零八落,如下所示:

 

我们也可以以病人样品视角来看:

 

这个算法真的是太可怕了,样品差异被抹除的干干净净了!这不是最可怕的,真正的问题是,这个上皮细胞被打散到了其它免疫细胞里面,因为这个harmony算法!我们可以对上皮细胞的最重要的marker基因EPCAM进行如下所示可视化,并且使用harmony等算法去除样品差异前后可以对比看看。

如果你对单细胞数据分析还没有基础认知,可以看基础10讲:

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存