J

Jay2Echo

V1

2022/12/12阅读:18主题:默认主题

[Linux|生信]project4_04:定量

背景

前面介绍了如何从sra文件得到fastq文件,并利用fastqc、multiqc生成质控报告以及使用trim_galore去除低质量碱基,如何进行序列比对。

[Linux|生信]project4_01:批量下载sra文件并转化为fastq文件

[Linux|生信]project4_02:质控过滤

[Linux|生信]project4_03:序列比对

今天介绍如何将序列信息进行定量,用于后续数据挖掘。

Just Do It!

定量

gtf=$HOME/Project4/source_data/cleandata/refANDgtf/GRCh38_latest_genomic.gff

nohup featureCounts -T 5 -p -t exon -g ID  -a $gtf -o  all.id.txt  *bam  1>counts.id.log 2>&1 &

参数说明:

  • -T 线程数
  • -p 双端序列
  • -t 设置feature-type,指定的必须是gtf中有的feature,同时read只有落到这些feature上才会被统计到,默认是“exon”
  • -g 当提供参考的gtf/gff的时候,我们需要提供一个id identifier 来将feature水平的统计汇总为meta-feature水平的统计,默认为“gene_id”,注意!选择gtf/gff中提供的id identifier!!!我的GFF文件来自NCBI官网,该参数值改为“ID”(见GTF/GFF文件第9列)
  • -a 参考gtf文件名,支持Gzipped文件格式
  • -o 输出文件的名字,输出文件的内容为read 的统计数目
  • *.bam 为对所有对比后的bam文件进行操作
  • 1>counts.id.log 2>&1 所有输出均重定向保存至“counts.id.log”中
红框中为定量后生成的文件
红框中为定量后生成的文件

结果文件解读

“counts.id.log”日志文件记录了输入文件的基本信息及比对情况,见下图。

“counts.id.log”日志文件内容_0
“counts.id.log”日志文件内容_0
““counts.id.log”日志文件内容”_1
““counts.id.log”日志文件内容”_1

“all.id.txt”文件记录了运行的命令行以及定量的Counts结果,见下图。 文件主要由9列构成,前6列分别为“Geneid Chr Start End Strand Length”,后三列为三个样本的Counts数

“all.id.txt”文件内容
“all.id.txt”文件内容

“all.id.txt.summary”文件为对总比对结果的汇总

“all.id.txt.summary”文件内容
“all.id.txt.summary”文件内容
  • 推文多平台同步发布,公众号内容食用更佳
  • 更多内容,请关注微信公众号“生信矿工”
  • 如有意见或建议可以在评论区讨论
公众号二维码
公众号二维码

分类:

前端

标签:

工具介绍

作者介绍

J
Jay2Echo
V1