Echo之生生不息

V1

2022/12/26阅读:15主题:默认主题

Linux+转录组的定量

作为windows用户,可惜powershell无法打开ssh,安装xshell软件,神秘通道进入Linux。

在全新服务器配置转录组测序数据处理环境 https://mp.weixin.qq.com/s/O9KZdU9XvqW0_ZWtJM-rnA

配置conda

conda管理生信软件一文就够

  • 下载文件

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

  • 使用bash命令安装conda

bash Miniconda3-latest-Linux-x86_64.sh

  • 更新系统环境变量文件

source ~/.bashrc

安装好conda后需要设置镜像

conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/

conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/

conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/

conda config --set show_channel_urls yes

使用conda安装aspera相关的数据下载环境

conda create -n download

conda activate download

conda install -y -c hcc aspera-cli

conda install -y -c bioconda sra-tools

which ascp

ls -lh ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh

使用conda安装必备软件工具

首先使用conda安装环境

conda create -n rna

conda activate rna

conda install  -y -c bioconda fastqc trim-galore hisat2 subread

conda install  -y -c bioconda salmon # salmon-0.14.2

conda install  -y -c bioconda samtools # samtools-1.6

主要是4个软件

fastqc --help 1>/dev/null

trim_galore --help 1>/dev/null

hisat2 --help 1>/dev/null

featureCounts --help 1>/dev/null

下载并且整理数据库文件 转录组上游定量其实真不难,4步可定(四)之终结篇 (qq.com)

数据下载

1.上传下载的SRR_Ac_List.txt到服务器上

2.激活包含prefech命令的SRAtoolkits软件的小环境

conda activate download

3.开始数据下载

cat SRR_Acc_List.txt |while read id;do (prefetch -X 100G $id );done

只下载2个,补充下载

4.批量将SRA文件转换fastq文件

5.批量将fastq文件压缩成fastq.gz文件

ls *fastq |while read id;do (gzip $id &);done

质控过滤

一:质控前的初看测序数据质量:fastqc与multiqc

1.激活专门用于RNAseq数据处理的小环境rna,进行fastqc与multiqc

conda activate rna #激活转录组测序数据处理的小环境

2.先进行fastqc

fastqc -t 6 -o ./ SRR*.fastq.gz >qc.log &

3.对fastqc后的zip数据进行multiqc

conda install  -y -c bioconda multiqc

multiqc ./*.zip -o ./ > ./multiqc.log &

二:trimmgalore质控

样本是单端:

ls *gz |while read id;do (trim_galore -q 25 --phred33 --length 36 --stringency 3 -o ./ $id & );done

样本是双端:

for i in SRR11618610 SRR11618616 SRR11618621; do trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired /home/st8/ssd2/tree076/SRR_data/ {i}_2.fastq.gz --gzip -o /home/st8/ssd2/tree076/SRR_data/trim_galoreR/; done

三:质控后数据也需要用fastqc与multiqc看看质控效果

01批量fastqc

fastqc -t 12 -o ./ SRR*_trimmed.fq.gz >qc_trimmed.log &

02开始multiqc

multiqc *.zip -o ./ > ./multiqc_t.log &

Hisat2比对

区分小鼠和人类的索引(index)与参考基因组文件(gtf)

哈哈哈哈哈哈,卡死在这里,欲知后事……

定量

分类:

前端

标签:

前端

作者介绍

Echo之生生不息
V1