零
零基础学生信
V1
2022/12/24阅读:38主题:默认主题
转录组上游分析
转录组上游分析主要分为4步
1.数据下载(自身数据的话,此步可忽略)
2.数据质控
3.Hisat2比对
4.featureCounts定量
在拿到新的账号后,首先配置conda环境,并更新环境变量。
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc
使用conda安装四个必须的软件。
conda create -n rna #该命令用于创建一个小环境,不要直接在账户当前环境内安装文件,使用该环境下的软件时用下条激活相关环境变量即可,这样是为了避免小环境出现问题后修复时造成很多麻烦。。
conda activate rna
conda install -y -c bioconda fastqc trim-galore hisat2 subread
conda install -y -c bioconda salmon
conda install -y -c bioconda samtools
软件安装后使用以下代码进行验证,如果成功安装以下代码不会报错。
fastqc --help 1>/dev/null
trim_galore --help 1>/dev/null
hisat2 --help 1>/dev/null
featureCounts --help 1>/dev/null
数据下载
下载prefetch,利用prefetch下载样本数据。
prefetch SRR11618610 SRR11618616 SRR11618621
#格式转换 将sra文件转换为fastq格式
ls -d ~/ceshi/sra/*.sra |while read id;do fastq-dump -O ~/ceshi/sra/fastq_test/ --split-3 ${id};done
将fastq文件压缩为fastq.gz文件
ls *fastq |while read id;do (nohup gzip $id &);done
数据质控
进行fastqc
nohup fastqc -t 6 -o ./ SRR*.fastq.gz >qc.log &
对fastqc后的zip数据进行multiqc
nohup multiqc ./*.zip -o ./ > ./multiqc.log &
trimmgalore质控
ls *_1.fastq.gz >fq1
ls *_2.fastq.gz >fq2
paste fq1 fq2 >config # 按顺序生成两列数据,不排序运行时后报错,提示要求输入偶数个文件
cat config |while read id;do (nohup trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o ./ $id & );done
比对
比对的话需要索引,索引直接从hisat2上下载即可。 使用以下脚本进行比对
#!/bin/bash
ls |grep .fq.gz|cut -d "_" -f 1 | while read id
do
sh -c "hisat2 --dta -p 3 -x /home/st8/ssd2/tree046/shuju/grch38/genome -1 ${id} _1_val_1.fq.gz -2 ${id}_2_val_2.fq.gz 2>${id%%_*}.log | samtools sort -@ 2 -o ${id%%_*}.bam" &
done
定量之前要对得到的bam文件进行排序,使用以下脚本进行排序。
#!/bin/bash
for i in SRR11618616 SRR11618610 SRR11618621
do
samtools sort -l 4 -o /home/st8/ssd2/tree046/shuju/samtools_bam/${i}_sort.bam /home/st8/ssd2/tree046/shuju/${i}.bam
done
定量
featurecounts计数
featureCounts -T 12 -p -a $gtf -o counts.txt ~/shuju/align/*.bam
用multiqc对计数结果进行qc,然后就得到了表达矩阵count.txt。下载至本地即可进行下游分析。
从结果中可以看出匹配度并不高,可能是因为数据质量较差的缘故。其实在最初质间时就发现三个样本中有好几项并不符合标准,即使是trimgalore后亦是如此。
作者介绍
零
零基础学生信
V1