陈泠
2023/01/10阅读:53主题:默认主题
转录组测序上游分析——实习生考核
1. 前期配置
1.1 配置 conda 及安装必备软件
参考链接: 在全新服务器配置转录组测序数据处理环境 中“配置 conda”和“使用 conda 安装必备软件工具”章节内容。
配置成功!
1.2 SRA Toolkit 安装以及配置流程
官方配置说明Quick Toolkit Configuration
具体操作
1.输入命令 vdb-config -i,弹出蓝色界面,如下,“Enable Remote Access”前面[]中为“X”,[X]说明已选中;

2.按键盘上 C,选中 CAHE 选项,确认 enable local file-catching 前为[X] ;

3.点击键盘上字母 O,即选中 location of user-repository,会弹出修改保存路径的界面,更改地址按各自环境更改地址,我的更改为/home/st8/ssd2/tree098/data;可以点击键盘上下键选择[Create Dir]来新建的文件夹;更改完成后点击[OK]处,点击 Enter 键,再点击键盘字母 Y 即保存新地址成功。


4.点击键盘上字母 A,选中 AWS,确认 "report cloud instance identity"前[]为[X]即可;

5.点击键盘上字母 S,然后点击字母 O,进行保存;再点击字母 X 退出配置画面,就配置完成了。
2. 转录组测序上游分析
2.1数据下载
下载 sra 数据
选择 3 个 sra 数据,1GB 左右,关于疾病 Adenocarcinoma 的单细胞 RNA 测序数据,2 个 female 58岁 和 1 个 female39岁 样品。
prefetch SRR11618638 SRR11618645 SRR11618664


批量将 SRA 文件转换 fastq 文件
ls SRR\* | while read id;do ( nohup fasterq-dump -O ./ --split-files -e 2 ./\$id --include-technical & );done

批量将 fastq 文件压缩成 fastq.gz 文件
ls \*fastq |while read id;do (nohup gzip \$id &);done
命令运行中查看数据如下,数据总大小有变化。

运行完后,数据总大小为 2.5G,自动删除了 fastq 文件。

2.2 质控过滤
先进行 fastqc,质控前初看测序数据质量
nohup fastqc -t 6 -o ./ SRR\*.fastq.gz >qc.log &
运行完如下,产生了*.zip 和*.html 文件

对 fastqc 后的 zip 数据进行 multiqc
nohup multiqc ./\*.zip -o ./ > ./multiqc.log &
运行后,生成 multiqc_report.html 文件

查看质量报告
下载*.html 文件到本地,查看质量
点击Xftp图标下载文件到本地,双击打开文件查看结果
trimmgalore 质控
trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired SRR11618638_1.fastq.gz SRR11618638_2.fastq.gz --gzip -o ~/cleandata/trim_galoredata/
trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired SRR11618645_1.fastq.gz SRR11618645_2.fastq.gz --gzip -o ~/cleandata/trim_galoredata/
trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired SRR11618664_1.fastq.gz SRR11618664_2.fastq.gz --gzip -o ~/cleandata/trim_galoredata/



质控后查看质控效果
同前,fastqc 与 multiqc。
fastqc -t 6 -o ./ SRR\*.fastq.gz >qc.log &
multiqc ./\*.zip -o ./ > ./multiqc.log &
质控前后结果对比
对比查看质控前后差别。











本节理解不够,待以后学习。
2.3 序列比对
下载参考基因组索引
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grch38.tar.gz

解压缩后查看文件
tar zxvf grch38.tar.gz

比对到参考基因组
全地址版
hisat2 -p 10 -x /home/st8/ssd2/tree098/project/reference/grch38/genome -1 /home/st8/ssd2/tree098/cleandata/trim_galoredata/SRR11618664_1_val_1.fq.gz -2 /home/st8/ssd2/tree098/cleandata/trim_galoredata/SRR11618664_2_val_2.fq.gz -S /home/st8/ssd2/tree098/project/align/SRR11618664.sam
定义参考基因组索引及输入输出版
index=/home/st8/ssd2/tree098/project/reference/grch38/genome
inputdir=/home/st8/ssd2/tree098/cleandata/trim_galoredata
outdir=/home/st8/ssd2/tree098/project/align
hisat2 -p 10 -x ${index} -1 ${inputdir}/SRR11618645_1_val_1.fq.gz -2 ${inputdir}/SRR11618645_2_val_2.fq.gz -S ${outdir}/SRR11618645.sam




sam 转 bam
samtools sort -@ 10 -o SRR11618638.sorted.bam SRR11618638.sam
samtools sort -@ 10 -o SRR11618645.sorted.bam SRR11618645.sam
samtools sort -@ 10 -o SRR11618664.sorted.bam SRR11618664.sam

bam建索引
samtools index SRR11618638.sorted.bam SRR11618638.sorted.bam.bai
samtools index SRR11618645.sorted.bam SRR11618645.sorted.bam.bai
samtools index SRR11618664.sorted.bam SRR11618664.sorted.bam.bai
2.4 featureCounts 定量
下载注释文件
对应注释文件 应该是这个,但看其他人用的是108版本。
下载并解压缩
wget ftp://ftp.ensembl.org/pub/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh38.84.gtf.gz
gzid -d Homo_sapiens.GRCh38.84.gtf.gz

定量
定义注释文件
gtf=/home/st8/ssd2/tree098/project/reference/Homo_sapiens.GRCh38.84.gtf
单个样品featureCounts
featureCounts -T 5 -p -t exon -g gene_id -a \$gtf -o SRR11618638 /home/st8/ssd2/tree098/project/align/SRR11618638.sorted.bam >SRR11618638.count.log


批量featureCounts
gtf=/home/st8/ssd2/tree098/project/reference/Homo_sapiens.GRCh38.84.gtf
nohup featureCounts -T 5 -p -t exon -g gene_id -a \$gtf -o all.id.txt /home/st8/ssd2/tree098/project/align/_bam >counts.id.log &
multiqc 查看比对结果
针对单个样品featureCounts
multiqc *.summary

针对批量featureCounts
multiqc all.id.txt.summary

下载*.html文件,查看multiqc结果
--其他技巧
查找文件
##find 地址 -name 文件名
文件名必须写完整,或者用*代替未写完的部分。

wget 命令
详细参看wget链接
使用 wget -c 重新启动下载中断的文件

--个人总结
断断续续摸索了一个月,总算跑完了,中间很多不懂的仍需要学习,踩过很多坑,例如没有看清楚实习内容,下了老鼠的转录组进行分析,直到看了其他实习生的帖子才发现;有照抄代码,没有改地址或者只改了部分地址致使无法运行的;有网速问题一直报错的,等等等。期间看了很多人的帖子,总算完成了,在此一并感谢!!!
最后鼓励下自己:未来路很长,继续努力吧!
作者介绍