
jamesbang
2022/10/04阅读:86主题:雁栖湖
🤩 scRNA-seq | 吐血整理的单细胞入门教程(注释与初步过滤)(三

1写在前面
本期我们介绍一下如何处理rawdata
,将Reads
转为 Count Matrix
。🤩
2参考基因组及注释
1️⃣ 目前,大多数scRNA-seq
是使用人类或小鼠的组织、器官或细胞培养物进行的。常用的就是UCSC
(hg19
、hg38
、mm10
等),和GRC
(GRCh37
、GRCh38
、GRCm38
)。
二者在主要染色体上是对等的(如hg38
的chr1
= GRCh38
的chr1
),但在一些小的位点上会有细微差异。
基因组注释
过程包括定义基因组
的转录区域
,明确exon
和intron
,将其分成protein coding
, non-coding
等。🤯
-
举个栗子🌰 -
假设我们有一个基因,包含5个转录本组成的基因。其中 3
个编码(红色)和2
个非编码(蓝色)。

在实际操作中,我们通常可以下载GTF
或GFF3
格式的文件进行注释。每个基因都含有一个ID
,而这个ID
是唯一的。🤗
Note! 这里也提醒大家在实际操作中,尽量使用ID
进行分析操作,而不要使用symbol
,当然在展示结果的时候你需要转换回symbol
方便阅读。🤜🤛
2️⃣ 我们常用的人类
和小鼠
基因组注释包括RefSeq
, ENSEMBL
和GENCODE
,实际应用中选择最新的版本就可以了,会有更多的已知基因👇。(这里就不做具体介绍了)

3Full-length scRNA-seq的处理
-
处理方法与
bulk RNA-seq
类似。 -
Full length scRNA-seq
的raw data
的处理通常分两步进行:比对
(read alignment
)和计数
(read counting
)。 -
常用软件:
STAR
和hisat2。
-
normalization
方法:推荐使用TPM
。
4Droplet-based scRNA-seq的比对和定量
1️⃣ 首先我们要搞清楚scRNA-seq
都有哪些产物。👇
-
cDNA
片段 (识别转录本); -
Cell barcode
(CB
,识别细胞); -
Unique Molecular Identifier
(UMI
,减小PCR扩增带来的bias
)。
2️⃣ 典型的scRNA-seq
的workflow
包括以下几个步骤:👇
-
将 cDNA
mapping到reference
上; -
计算基因 reads
; -
计算细胞 reads
(用到cell barcode
); -
计算的 RNA
数量(UMI
去重)。
5具体步骤
5.1 Read Mapping
处理10x Genomics Chromium scRNAseq
数据,我们通常要用到Cell Ranger
,具体原理我们在这里就不做具体介绍了,大家有兴趣去google
一下吧。😂
这里只介绍一下外显子
(exon
)的定义,即reads
比对到外显子
的 50% 以上,就可以定义为外显子
。

5.2 Cell Ranger Reference
在选择Reference
的时候,大家可以按以下table
进行选择。👇
Cell Ranger Reference | Species | Assembly/Annotation | Genes before filtering | Genes after filtering |
---|---|---|---|---|
2020-A | human | GRCh38/GENCODE v32 | 60668 | 36601 |
2020-A | mouse | mm10/GENCODE vM23 | 55421 | 32285 |
3.0.0 | human | GRCh38/Ensembl 93 | 58395 | 33538 |
3.0.0 | human | hg19/Ensembl 87 | 57905 | 32738 |
3.0.0 | mouse | mm10/Ensembl 93 | 54232 | 31053 |
2.1.0 | mouse | mm10/Ensembl 84 | 47729 | 28692 |
1.2.0 | human | GRCh38/Ensembl 84 | 60675 | 33694 |
1.2.0 | human | hg19/Ensembl 82 | 57905 | 32738 |
1.2.0 | mouse | mm10/Ensembl 84 | 47729 | 27998 |
5.3 UMI计数
-
这里我们注意一下
两点👇
: -
如果两组或更多的
reads
具有相同的barcode
和UMI
,但基因注释
却不相同,那么reads
最多的基因注释
用于UMI
计数,舍弃其他组。 -
我们再极端一点,如果两组
reads
一样的话,这个时候我们可能需要舍弃所有组,因为这个时候基因注释
已经不准确了。😤
5.4 细胞过滤
1️⃣ 未经过滤的raw data
, feature-barcode matrix
会包含很多空的 droplets
,在矩阵中并不是0
,因为会有来自破碎细胞
的RNA
。所以,这种数据我们需要进行过滤,而后再进行分析。🥳
2️⃣ 我们通常需要使用Cell Ranger 2.2
和Cell Ranger 3.0
进行过滤。👇

3️⃣ 举个栗子🌰
肿瘤样本通常包含大型肿瘤细胞与少量的肿瘤浸润淋巴细胞(TIL
),如果你对TIL
特别感兴趣,那这个时候可能就要用到EmptyDrops
的方法来进行过滤了。
6其他方法
当你使用Cell Ranger
时,你可能会觉得它不够快,这里我们介绍两个速度快
、准确度高
的方法,STARsolo
和Alevin
,这里不做具体介绍了,推荐大家选择STARsolo
。🤒


点个在看吧各位~ ✐.ɴɪᴄᴇ ᴅᴀʏ 〰

作者介绍

jamesbang
wx🔍: Grassssss 卷起来了