背景

前面介绍了如何从sra文件得到fastq文件，并利用fastqc、multiqc生成质控报告以及使用trim_galore去除低质量碱基，如何进行序列比对。

[Linux|生信]project4_01:批量下载sra文件并转化为fastq文件

[Linux|生信]project4_02:质控过滤

[Linux|生信]project4_03:序列比对

今天介绍如何将序列信息进行定量，用于后续数据挖掘。

Just Do It!

定量

gtf=$HOME/Project4/source_data/cleandata/refANDgtf/GRCh38_latest_genomic.gff

nohup featureCounts -T 5 -p -t exon -g ID  -a $gtf -o  all.id.txt  *bam  1>counts.id.log 2>&1 &

参数说明：

-T 线程数

-p 双端序列

-t 设置feature-type，指定的必须是gtf中有的feature，同时read只有落到这些feature上才会被统计到，默认是“exon”

-g 当提供参考的gtf/gff的时候，我们需要提供一个id identifier 来将feature水平的统计汇总为meta-feature水平的统计，默认为“gene_id”，注意！选择gtf/gff中提供的id identifier！！！我的GFF文件来自NCBI官网，该参数值改为“ID”(见GTF/GFF文件第9列)

-a 参考gtf文件名，支持Gzipped文件格式

-o 输出文件的名字，输出文件的内容为read 的统计数目

*.bam 为对所有对比后的bam文件进行操作

1>counts.id.log 2>&1 所有输出均重定向保存至“counts.id.log”中

结果文件解读

“counts.id.log”日志文件记录了输入文件的基本信息及比对情况，见下图。

“all.id.txt”文件记录了运行的命令行以及定量的Counts结果，见下图。文件主要由9列构成，前6列分别为“Geneid Chr Start End Strand Length”，后三列为三个样本的Counts数

“all.id.txt.summary”文件为对总比对结果的汇总

推文多平台同步发布，公众号内容食用更佳
更多内容，请关注微信公众号“生信矿工”
如有意见或建议可以在评论区讨论