查看原文
其他

10X单细胞转录组的测序数据量这么少是为什么

生信技能树 生信技能树 2022-08-15

最近读到发表在nature medicine杂志的文章《Immune profiling of human tumors identifies CD73 as a combinatorial target in glioblastoma》:

  • 链接是:https://www.nature.com/articles/s41591-019-0694-x

它正文的 Data availability 部分就清晰地列出来了cytof数据和单细胞转录组数据存放的地方:

  • CyTOF data (Figs. 1, 2a,b, 3c–g and 4c,d) have been deposited with the FlowRepository (FR-FCM-Z2B3).
  • scRNA-seq data (Figs. 2c–e and 3a) have been deposited with the Sequence Read Archive with accession number PRJNA588461.

在EBI可以下载到这个项目的10X单细胞转录组的测序数据

链接是:https://www.ebi.ac.uk/ena/browser/view/PRJNA588461  可以看到是7个样品的10X单细胞转录组的测序数据。每个样品是2个fq文件,所以可以毫无障碍的走我们的流程。参考我在《生信技能树》的教程:cellranger更新到4啦(全新使用教程)

目前单细胞转录组以10X公司为主流,我们也是在单细胞天地公众号详细介绍了cellranger流程,大家可以自行前往学习,如下:

但是这个两年前的系列笔记是基于V2,V3版本的cellranger,目前呢它更新到了版本4,建议以我的最新版教程为准,在《生信技能树》的教程:cellranger更新到4啦(全新使用教程)

但是我在https://www.ncbi.nlm.nih.gov/sra?linkname=bioproject_sra_all&from_uid=588461看到了,它们的测序数据量介于 1~10G之间,远小于标准的100G数据量。

文章的数据分析描述如下:

  • These four separate count matrices were then merged into one large count matrix consisting of 13,263 cells (ranging from 2,763 to 3,666 cells per patient) by 19,187 genes.
  • Next, the median number of unique molecules per cell was low across the four samples (1,170, 1,210, 1,468 and 1,592, respectively), resulting in a sparse data matrix, as is common to scRNA-seq data.

每个10X单细胞转录组的获得的细胞数量还算ok,基因数量也ok,但是呢,就是测序数据量有点偏低,很诡异!

文章的单细胞转录组数据分析

单细胞转录组数据分析的细节,以及背景我就不赘述了,看我在《单细胞天地》的单细胞基础10讲:

以及各式各样的个性化汇总教程,差不多就明白了。

主要也是聚类分群

如下所示,针对的是TILs from untreated GBM tumors (n = 4),使用的是MAGIC算法进行聚类分群,并没有采用我们主推的seurat流程。但是仍然是以不同细胞亚群的标记基因热图来进行展示,如下:

不同细胞亚群的标记基因热图

上图是:TILs from untreated GBM tumors (n = 4) were analyzed by scRNA-seq and identified using the MAGIC algorithm. Heatmap indicating the normalized expression of selected markers in leukocyte clusters identified by MAGIC.

但是,seurat实在是太全面了,仍然是推荐初学者从seurat开始认识单细胞数据分析的方方面面哈。我们《单细胞天地》的周运来大佬已经连夜翻译了他们的最新教程了,目录见:

单独看 chemokine receptors基因集表达热图

前面的标记基因热图已经展示了不同的细胞亚群,接下来就是靠生物学背景了,比如,单独拿出来chemokine receptors基因集进行热图可视化,如下:

Heatmap indicating normalized expression of chemokine receptors on CD73hi macrophage clusters identified by MAGIC. 使用黑色箭头把 CD73hi myeloid 亚群标记了一下:

单独拿出来chemokine receptors基因集进行热图可视化

看基因表达量散点图

也是单细胞数据分析的常见图表之一,每个细胞首先被固定了坐标(tSNE或者umap的),然后可以在固定的坐标系对细胞属性进行不同的映射,表达量或者基因打分这样的连续性变量通常是映射为颜色深浅,点的大小。而细胞亚群这样的分类变量就映射为性状或者不同颜色。

表达量或者基因打分这样的连续性变量通常是映射为颜色深浅

单独看macrophage gene signature 基因集表达热图

上面的基因表达量散点图,可以看到macrophage gene signature 基因集主要是在第 3,7,14,17亚群富集着,但是它展现的是macrophage gene signature 基因集做完一个整体的打分。既然作者这样的生物学结论都是关于macrophage gene signature 基因集的,就可以单独把其全部的基因拿出来后做热图进行更具体的可视化!

单独把其全部的基因拿出来后做热图进行更具体的可视化

图例是:CD73hi macrophage gene signature of differentially expressed genes (z-score > 3.0, 45 genes; Supplementary Table 3). The heatmap indicates the normalized expression of top differentially expressed genes in CD73hi macrophages (z-score > 2.0) identified by MAGIC.

学徒作业

当然是,根据文章的测序数据连接:https://www.ebi.ac.uk/ena/browser/view/PRJNA588461 ,下载7个样品的10X单细胞转录组的测序数据。每个样品是2个fq文件,走我在《生信技能树》的教程:cellranger更新到4啦(全新使用教程) ,每个样品拿到表达矩阵3个文件。

然后走下游seurat流程, 绘制上面的4个图!

写到最后

如果你也想开启自己的生物信息学数据处理生涯,但是自学起来困难重重,还等什么呢,赶快行动起来吧!参加我们生信技能树官方举办的学习班:

生信技能树的粉丝都知道我们有一个全国巡讲的良心学习班,口碑爆棚,生物信息学入门省心省时省力!先看看大家的反馈吧:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存