J
Jay2Echo
V1
2022/12/12阅读:23主题:默认主题
[Linux|生信]project4_04:定量
背景
前面介绍了如何从sra文件得到fastq文件,并利用fastqc、multiqc生成质控报告以及使用trim_galore去除低质量碱基,如何进行序列比对。
[Linux|生信]project4_01:批量下载sra文件并转化为fastq文件
[Linux|生信]project4_02:质控过滤
[Linux|生信]project4_03:序列比对
今天介绍如何将序列信息进行定量,用于后续数据挖掘。
Just Do It!
定量
gtf=$HOME/Project4/source_data/cleandata/refANDgtf/GRCh38_latest_genomic.gff
nohup featureCounts -T 5 -p -t exon -g ID -a $gtf -o all.id.txt *bam 1>counts.id.log 2>&1 &
参数说明:
-T 线程数 -p 双端序列 -t 设置feature-type,指定的必须是gtf中有的feature,同时read只有落到这些feature上才会被统计到,默认是“exon” -g 当提供参考的gtf/gff的时候,我们需要提供一个id identifier 来将feature水平的统计汇总为meta-feature水平的统计,默认为“gene_id”,注意!选择gtf/gff中提供的id identifier!!!我的GFF文件来自NCBI官网,该参数值改为“ID”(见GTF/GFF文件第9列) -a 参考gtf文件名,支持Gzipped文件格式 -o 输出文件的名字,输出文件的内容为read 的统计数目 *.bam 为对所有对比后的bam文件进行操作 1>counts.id.log 2>&1 所有输出均重定向保存至“counts.id.log”中

结果文件解读
“counts.id.log”日志文件记录了输入文件的基本信息及比对情况,见下图。


“all.id.txt”文件记录了运行的命令行以及定量的Counts结果,见下图。 文件主要由9列构成,前6列分别为“Geneid Chr Start End Strand Length”,后三列为三个样本的Counts数

“all.id.txt.summary”文件为对总比对结果的汇总

-
推文多平台同步发布,公众号内容食用更佳 -
更多内容,请关注微信公众号“生信矿工” -
如有意见或建议可以在评论区讨论

作者介绍
J
Jay2Echo
V1