陈泠

V1

2023/01/10阅读:53主题:默认主题

转录组测序上游分析——实习生考核

1. 前期配置

1.1 配置 conda 及安装必备软件

参考链接: 在全新服务器配置转录组测序数据处理环境 中“配置 conda”和“使用 conda 安装必备软件工具”章节内容。

配置成功!

1.2 SRA Toolkit 安装以及配置流程

本节参考SRA Toolkit安装以及配置流程

官方配置说明Quick Toolkit Configuration

具体操作

1.输入命令 vdb-config -i,弹出蓝色界面,如下,“Enable Remote Access”前面[]中为“X”,[X]说明已选中;

2.按键盘上 C,选中 CAHE 选项,确认 enable local file-catching 前为[X] ;

3.点击键盘上字母 O,即选中 location of user-repository,会弹出修改保存路径的界面,更改地址按各自环境更改地址,我的更改为/home/st8/ssd2/tree098/data;可以点击键盘上下键选择[Create Dir]来新建的文件夹;更改完成后点击[OK]处,点击 Enter 键,再点击键盘字母 Y 即保存新地址成功。

4.点击键盘上字母 A,选中 AWS,确认 "report cloud instance identity"前[]为[X]即可;

5.点击键盘上字母 S,然后点击字母 O,进行保存;再点击字母 X 退出配置画面,就配置完成了。

2. 转录组测序上游分析

参考转录组上游定量其实真不难,4步可定(四)之终结篇

2.1数据下载

下载 sra 数据

选择 3 个 sra 数据,1GB 左右,关于疾病 Adenocarcinoma 的单细胞 RNA 测序数据,2 个 female 58岁 和 1 个 female39岁 样品。

prefetch SRR11618638 SRR11618645 SRR11618664

批量将 SRA 文件转换 fastq 文件

ls SRR\* | while read id;do ( nohup fasterq-dump -O ./ --split-files -e 2 ./\$id --include-technical & );done

批量将 fastq 文件压缩成 fastq.gz 文件

ls \*fastq |while read id;do (nohup gzip \$id &);done

命令运行中查看数据如下,数据总大小有变化。

运行完后,数据总大小为 2.5G,自动删除了 fastq 文件。

2.2 质控过滤

先进行 fastqc,质控前初看测序数据质量

nohup fastqc -t 6 -o ./ SRR\*.fastq.gz >qc.log &

运行完如下,产生了*.zip 和*.html 文件

对 fastqc 后的 zip 数据进行 multiqc

nohup multiqc ./\*.zip -o ./ > ./multiqc.log &

运行后,生成 multiqc_report.html 文件

查看质量报告

下载*.html 文件到本地,查看质量

点击Xftp图标下载文件到本地,双击打开文件查看结果

trimmgalore 质控

trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired SRR11618638_1.fastq.gz SRR11618638_2.fastq.gz --gzip -o ~/cleandata/trim_galoredata/

trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired SRR11618645_1.fastq.gz SRR11618645_2.fastq.gz --gzip -o ~/cleandata/trim_galoredata/

trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired SRR11618664_1.fastq.gz SRR11618664_2.fastq.gz --gzip -o ~/cleandata/trim_galoredata/

质控后查看质控效果

同前,fastqc 与 multiqc。

fastqc -t 6 -o ./ SRR\*.fastq.gz >qc.log &

multiqc ./\*.zip -o ./ > ./multiqc.log &

质控前后结果对比

对比查看质控前后差别。

质控前
质控前
质控后
质控后
质控后尾部上翘
质控后尾部上翘
没变化,用一张图代替
没变化,用一张图代替
没变化,用一张图代替
没变化,用一张图代替
质控后警告
质控后警告
没变化,用一张图代替
没变化,用一张图代替
质控前
质控前
质控后
质控后
质控前
质控前

质控后 本节理解不够,待以后学习。

2.3 序列比对

下载参考基因组索引

索引链接

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grch38.tar.gz

解压缩后查看文件

tar zxvf grch38.tar.gz

比对到参考基因组

全地址版

hisat2 -p 10 -x /home/st8/ssd2/tree098/project/reference/grch38/genome -1 /home/st8/ssd2/tree098/cleandata/trim_galoredata/SRR11618664_1_val_1.fq.gz -2 /home/st8/ssd2/tree098/cleandata/trim_galoredata/SRR11618664_2_val_2.fq.gz -S /home/st8/ssd2/tree098/project/align/SRR11618664.sam

定义参考基因组索引及输入输出版

index=/home/st8/ssd2/tree098/project/reference/grch38/genome
inputdir=/home/st8/ssd2/tree098/cleandata/trim_galoredata
outdir=/home/st8/ssd2/tree098/project/align

hisat2 -p 10 -x ${index} -1 ${inputdir}/SRR11618645_1_val_1.fq.gz -2 ${inputdir}/SRR11618645_2_val_2.fq.gz -S ${outdir}/SRR11618645.sam

sam 转 bam

samtools sort -@ 10 -o SRR11618638.sorted.bam SRR11618638.sam

samtools sort -@ 10 -o SRR11618645.sorted.bam SRR11618645.sam

samtools sort -@ 10 -o SRR11618664.sorted.bam SRR11618664.sam

bam建索引

samtools index SRR11618638.sorted.bam SRR11618638.sorted.bam.bai

samtools index SRR11618645.sorted.bam SRR11618645.sorted.bam.bai

samtools index SRR11618664.sorted.bam SRR11618664.sorted.bam.bai

2.4 featureCounts 定量

下载注释文件

对应注释文件 应该是这个,但看其他人用的是108版本。

下载并解压缩

wget ftp://ftp.ensembl.org/pub/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh38.84.gtf.gz

gzid -d Homo_sapiens.GRCh38.84.gtf.gz

定量

定义注释文件

gtf=/home/st8/ssd2/tree098/project/reference/Homo_sapiens.GRCh38.84.gtf

单个样品featureCounts

featureCounts -T 5 -p -t exon -g gene_id -a \$gtf -o SRR11618638 /home/st8/ssd2/tree098/project/align/SRR11618638.sorted.bam >SRR11618638.count.log

批量featureCounts

gtf=/home/st8/ssd2/tree098/project/reference/Homo_sapiens.GRCh38.84.gtf

nohup featureCounts -T 5 -p -t exon -g gene_id -a \$gtf -o all.id.txt /home/st8/ssd2/tree098/project/align/_bam >counts.id.log &

multiqc 查看比对结果

针对单个样品featureCounts

multiqc *.summary

针对批量featureCounts

multiqc all.id.txt.summary

下载*.html文件,查看multiqc结果

--其他技巧

查找文件

##find 地址 -name 文件名

文件名必须写完整,或者用*代替未写完的部分。

wget 命令

详细参看wget链接

使用 wget -c 重新启动下载中断的文件

--个人总结

断断续续摸索了一个月,总算跑完了,中间很多不懂的仍需要学习,踩过很多坑,例如没有看清楚实习内容,下了老鼠的转录组进行分析,直到看了其他实习生的帖子才发现;有照抄代码,没有改地址或者只改了部分地址致使无法运行的;有网速问题一直报错的,等等等。期间看了很多人的帖子,总算完成了,在此一并感谢!!!

最后鼓励下自己:未来路很长,继续努力吧!

分类:

其他

标签:

其他

作者介绍

陈泠
V1