转录组上游分析主要分为4步

1.数据下载（自身数据的话，此步可忽略）

2.数据质控

3.Hisat2比对

4.featureCounts定量

在拿到新的账号后，首先配置conda环境，并更新环境变量。

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc

使用conda安装四个必须的软件。

conda create -n rna #该命令用于创建一个小环境，不要直接在账户当前环境内安装文件，使用该环境下的软件时用下条激活相关环境变量即可，这样是为了避免小环境出现问题后修复时造成很多麻烦。。
conda activate rna  
conda install  -y -c bioconda fastqc trim-galore hisat2 subread
conda install  -y -c bioconda salmon 
conda install  -y -c bioconda samtools

软件安装后使用以下代码进行验证，如果成功安装以下代码不会报错。

fastqc --help 1>/dev/null
trim_galore --help 1>/dev/null
hisat2 --help 1>/dev/null
featureCounts --help 1>/dev/null

数据下载

下载prefetch，利用prefetch下载样本数据。

prefetch SRR11618610 SRR11618616 SRR11618621

#格式转换将sra文件转换为fastq格式

 ls -d ~/ceshi/sra/*.sra |while read id;do fastq-dump -O ~/ceshi/sra/fastq_test/ --split-3 ${id};done

将fastq文件压缩为fastq.gz文件

ls *fastq |while read id;do (nohup gzip $id &);done

数据质控

进行fastqc

nohup fastqc -t 6 -o ./ SRR*.fastq.gz >qc.log &

对fastqc后的zip数据进行multiqc

nohup multiqc ./*.zip -o ./ > ./multiqc.log &

trimmgalore质控

ls *_1.fastq.gz >fq1
ls *_2.fastq.gz >fq2
paste fq1 fq2 >config   # 按顺序生成两列数据，不排序运行时后报错，提示要求输入偶数个文件
cat config |while read id;do (nohup trim_galore  -q 25 --phred33 --length 36 --stringency 3 --paired  -o ./  $id & );done

比对

比对的话需要索引，索引直接从hisat2上下载即可。使用以下脚本进行比对

#!/bin/bash
ls |grep .fq.gz|cut -d "_" -f 1 | while read id
do
        sh -c  "hisat2 --dta  -p 3 -x /home/st8/ssd2/tree046/shuju/grch38/genome -1 ${id} _1_val_1.fq.gz -2 ${id}_2_val_2.fq.gz  2>${id%%_*}.log | samtools sort -@ 2 -o ${id%%_*}.bam" &
  done

定量之前要对得到的bam文件进行排序，使用以下脚本进行排序。

#!/bin/bash
for i in  SRR11618616 SRR11618610 SRR11618621

do
samtools sort -l 4 -o /home/st8/ssd2/tree046/shuju/samtools_bam/${i}_sort.bam /home/st8/ssd2/tree046/shuju/${i}.bam
done

定量

featurecounts计数

 featureCounts -T  12  -p  -a  $gtf  -o  counts.txt ~/shuju/align/*.bam

用multiqc对计数结果进行qc，然后就得到了表达矩阵count.txt。下载至本地即可进行下游分析。

从结果中可以看出匹配度并不高，可能是因为数据质量较差的缘故。其实在最初质间时就发现三个样本中有好几项并不符合标准，即使是trimgalore后亦是如此。