什么，SRA测序数据要收费了

Original 生信技能树单细胞天地 2022-06-07

如果大家学过了我免费共享在B站的不同的数据分析视频课程，见：

可以发现，这些三年前的视频教程里面都是从SRA（Sequence Read Archive）数据库下载文献的测序数据，我也在五年前详细解读过SRA数据库的结构：

层级结构是：SRP(项目)—>SRS(样本)—>SRX(数据产生)—>SRR(数据本身) 伴随数据库是project，层级是PRJNA —> SAMN 链接如下：

https://www.ncbi.nlm.nih.gov/sra?term=SRP078156 查看样本列表
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP078156 下载样本ID表格
https://www.ncbi.nlm.nih.gov/bioproject/PRJNA327548
https://www.ncbi.nlm.nih.gov/sra?term=SAMN05341212

当然了，实际上是有六种不同的SRA数据库编号，以S开头，官方说明链接：

https://www.ncbi.nlm.nih.gov/books/NBK56913/#search.what_do_the_different_sra_accessi 不过我们不需要掌握那么多。

但是很多学员反馈说，跟着我的代码，下载SRA数据库的文件速度非常感人，也就是十几KB每秒，而我们的测序原始数据经常就几个TB，所以都放弃了。

后来我又统一了文献数据下载教程，因为美国的NCBI的SRA与欧洲的EBI-EMBL以及日本的DDBJ数据库共享数据，所以我建议大家去EBI下载，见：使用ebi数据库直接下载fastq测序数据 , 首先使用conda安装aspera

conda create -n download
conda activate download
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
which ascp
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh

我们已经多次介绍过conda细节了，这里就不再赘述。

conda管理生信软件一文就够
生信技能树B站软件安装视频
https://www.bilibili.com/video/av28836717

然后就可以使用conda配置好的aspera软件进行高速下载，同时需要学习欧洲的EBI-EMBL以及日本的DDBJ数据库的编号规则：

欧洲的EBI-EMBL以及日本的DDBJ数据库的编号规则

首先SRA数据库准备放弃存储碱基质量值

但是今天（2020-07-04 ）刷朋友圈居然看到了 Heng Li 的推特截图：

SRA数据库准备放弃存储碱基质量值

居然，SRA数据库准备抛弃用户上传的fastq测序数据里面的质量值。

关于fastq格式测序数据

FastQ格式也是序列格式中常见的一种，它存储了生物序列以及相应的质量评价，其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的通行标准格式。

FastQ格式和FastA格式都是用来表示序列，其中FastQ格式是4行表示一个序列，而FastA格式只有两行。FastQ格式增加了2行，但其实仅仅是增加了序列对应碱基的质量值信息。

FASTQ文件中每个序列通常有四行：

1.第一行：必须以“@”开头，后面跟着唯一的序列ID标识符，然后跟着可选的序列描述内容，标识符与描述内容用空格分开；这个与FastA格式的第一行类似，差异就是FastA格式的序列标识通常是大于号">"开头。
2.第二行：序列本身，只允许使用既定的核苷酸或氨基酸编码符号，编码规则见前文的标准IUB / IUPAC 表格；
3.第三行：通常就是一个简单加号字符“+”占位即可
4.第四行：序列的碱基组成的质量字符，每个字符对应第二行相应位置碱基或氨基酸的质量。

重点是理解质量字符，比如A，首先大家需要理解ASCII码，然后需要理解Phred quality score

居然还收费

怕粉丝理解不清楚，Heng Li又解释了一番：

SRA数据库提供付费下载

不知道是不是疫情影响？他们经费缩减？

我感觉可以考虑国内的测序数据存储中心了，大家可以留言推荐一下国内好用的数据库哦！直接留言上墙！

往期精彩

如果你对单细胞转录组研究感兴趣，但又不知道如何入门，也许你可以关注一下下面的课程

单细胞天地欢迎你

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

什么，SRA测序数据要收费了

首先SRA数据库准备放弃存储碱基质量值

关于fastq格式测序数据

居然还收费

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

什么，SRA测序数据要收费了

首先SRA数据库准备放弃存储碱基质量值

关于fastq格式测序数据

居然还收费

您可能也对以下帖子感兴趣