您的位置  > 互联网

转录组学习难不难,怎么办?

在转录组学习中,第一步是下载转录组数据。 我一般使用转录组数据下载,因为下载速度比较快。 另外,还有一些下载工具可以使用,比如,但是我上次使用的时候速度很慢。 不知道是我的网络问题还是工具本身的问题,建议下载。

安装时我使用的是conda安装方法。 安装方便快捷,不需要自己安装其他依赖软件。 安装命令如下:

conda install -c hcc aspera-cli

它也更容易使用:

ascp  -vQT -l 500m -P33001 -k 1 -i  ~/.aspera/connect/etc/asperaweb_id_dsa.openssh  era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR122/079/SRR12207279/SRR12207279_1.fastq.gz  ./
主要参数:
-v 详细模式
-Q 用于自适应流量控制,磁盘限制所需
-T 设置为无需加密传输
-l 最大下载速度,一般设为500m
-P TCP 端口,一般为33001
-k 断点续传,通常设为 1
-i 免密下载的密钥文件
密钥后接下载的转录组数据地址以及保存路径
其中需要注意的是免密下载的密钥文件,对于使用conda安装的Aspera,可以使用which ascp进行查找免密下载的密钥位置,但注意密钥在which ascp命令查找的路径的上一级目录中的ect目录下

配置完成后,即可下载转录组数据。 对于转录组数据下载地址,我们以下面的文章为例,本文的数据也将用于后续的转录组数据文章。

可以看到,本文的数据主要在NCBI项目下,总共分别包含了6个SRA数据。它们的下载地址,我们首先进入ENA官网,在搜索栏中搜索项目号

点击下方下载格式,选择TSV格式即可获取文件。

对于这个文件,我们需要后面部分的下载地址。 下载地址不能直接用于下载。 它还需要转换才能下载。 具体方法是把voll前面的部分替换成era。 -fasp@fasp.sra.ebi.ac.uk:/,最终格式如下

将所有下载地址转换为这种风格,然后使用for循环来循环下载。 好了,转录组分析数据第一部分的下载就到此为止了。 剩下的转录组分析请继续关注我!