nature文章也要挖掘单细胞公共数据

Original 生信技能树单细胞天地 2022-06-07

我列过一个生物信息学入门200篇NGS文献解读计划，其中一个文献是发表于2018的NC，标题是：Unravelling subclonal heterogeneity and aggressive disease states in TNBC through single-cell RNA-seq 对6个TNBC病人总共测了超过1500个单细胞，质控后还剩下1189个单细胞进入下游分析。使用的是FACS加上Smart-seq2 ，非常中规中矩的分析，所以就发了同样中规中矩的NC。

组会课题组的博士后分享了一篇nature文章，发表于2019年6月，题目是：CD24 signalling through macrophage Siglec-10 is a target for cancer immunotherapy 利用了这个数据集加入自己的生物学故事，应该是大家感兴趣的数据挖掘。

该nature文章从公共数据库的原始测序数据开始，自己构建表达矩阵，自己对细胞进行质量控制，自己走单细胞标准流程，就是5个R包，分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象，：一些单细胞转录组R包的对象分析流程也大同小异：

step1: 创建对象
step2: 质量控制
step3: 表达量的标准化和归一化
step4: 去除干扰因素(多个样本整合)
step5: 判断重要的基因
step6: 多种降维算法
step7: 可视化降维结果
step8: 多种聚类算法
step9: 聚类后找每个细胞亚群的标志基因
step10: 继续分类

文章描述流程如下：

因为原文有标记细胞类群，也有marker，所以作者很容易出图如下：

就查看自己感兴趣的基因就好了，毕竟是要使用公共数据库来辅助自己的生物学故事啦。

同样的可以看到6个病人，他们的肿瘤细胞是具有病人异质性的，虽然整体是肿瘤细胞，但是病人与病人直接区分的很开，但是其它细胞就是细胞类型特异性很明显，多个病人的同一个细胞类型会被整合在一起。

热图展示每个细胞亚群的marker基因也是标配啦

本文不一样的是区分病人来看自己感兴趣的基因的表达情况。

希望这次分享对你的课题有帮助，尝试多看文献，毕竟地主家也缺余粮，毕竟6个病人1000多个细胞呢，不用白不用！

当然了，共数据库挖掘需要的基础linux和r技巧好好掌握。

书籍+视频+习题配套练习

视频都在B站，大家把R语言和linux一起学习，十万人观看的教学视频，你值得拥有：

书籍我推荐两本：

作业的话，力推我设计的5套习题，加油，在生物信息学的路上等大家！

最低要求是完成我的 linux 20题 http://www.bio-info-trainee.com/2900.html
其次完成生物信息学数据格式的习题(blast/blat/fa-fq/sam-bam/vcf/bed/gtf-gff)，收集这些格式的说明书。
fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html
sam和bam格式文件的shell小练习 http://www.bio-info-trainee.com/3578.html
VCF格式文件的shell小练习 http://www.bio-info-trainee.com/3577.html

SMETA 7.0 升级培训

赋红码的张书记，重出江湖

外商来华直接投资，降至1994年以来最低

牛津光计算论文登Nature正刊，分析帕金森患者步态准确率达92.2%

天呐! AI 之王 GPT-6 猎户座来了！

nature文章也要挖掘单细胞公共数据

您可能也对以下帖子感兴趣

SMETA 7.0 升级培训

赋红码的张书记，重出江湖

外商来华直接投资，降至1994年以来最低

牛津光计算论文登Nature正刊，分析帕金森患者步态准确率达92.2%

天呐! AI 之王 GPT-6 猎户座 来了！

生成图片，分享到微信朋友圈

nature文章也要挖掘单细胞公共数据

您可能也对以下帖子感兴趣

天呐! AI 之王 GPT-6 猎户座来了！