jamesbang

V1

2022/10/04阅读:51主题:雁栖湖

🤩 scRNA-seq | 吐血整理的单细胞入门教程(注释与初步过滤)(三

1写在前面

本期我们介绍一下如何处理rawdata,将Reads转为 Count Matrix。🤩

2参考基因组及注释

1️⃣ 目前,大多数scRNA-seq是使用人类或小鼠的组织、器官或细胞培养物进行的。常用的就是UCSChg19hg38mm10等),和GRCGRCh37GRCh38GRCm38)。

二者在主要染色体上是对等的(如hg38chr1 = GRCh38chr1),但在一些小的位点上会有细微差异。

基因组注释过程包括定义基因组转录区域,明确exonintron,将其分成protein coding, non-coding等。🤯

  • 举个栗子🌰
  • 假设我们有一个基因,包含5转录本组成的基因。其中3个编码(红色)和2个非编码(蓝色)。
Transcript and intron-exon structure of a typical eukaryotic gene
Transcript and intron-exon structure of a typical eukaryotic gene

在实际操作中,我们通常可以下载GTFGFF3格式的文件进行注释。每个基因都含有一个ID,而这个ID是唯一的。🤗

Note! 这里也提醒大家在实际操作中,尽量使用ID进行分析操作,而不要使用symbol,当然在展示结果的时候你需要转换回symbol方便阅读。🤜🤛


2️⃣ 我们常用的人类小鼠基因组注释包括RefSeq, ENSEMBLGENCODE,实际应用中选择最新的版本就可以了,会有更多的已知基因👇。(这里就不做具体介绍了)

Sankey diagram of gene type changes in GENCODE versions
Sankey diagram of gene type changes in GENCODE versions

3Full-length scRNA-seq的处理

  • 处理方法与bulk RNA-seq类似。

  • Full length scRNA-seqraw data的处理通常分两步进行:比对(read alignment)和计数 (read counting)。

  • 常用软件:STARhisat2。

  • normalization方法:推荐使用TPM

4Droplet-based scRNA-seq的比对和定量

1️⃣ 首先我们要搞清楚scRNA-seq都有哪些产物。👇

  • cDNA片段 (识别转录本);
  • Cell barcode (CB,识别细胞);
  • Unique Molecular Identifier (UMI,减小PCR扩增带来的bias)。

2️⃣ 典型的scRNA-seqworkflow包括以下几个步骤:👇

  • cDNAmappingreference上;
  • 计算基因reads
  • 计算细胞reads(用到cell barcode);
  • 计算的RNA数量(UMI去重)。

5具体步骤

5.1 Read Mapping

处理10x Genomics Chromium scRNAseq数据,我们通常要用到Cell Ranger,具体原理我们在这里就不做具体介绍了,大家有兴趣去google一下吧。😂

这里只介绍一下外显子(exon)的定义,即reads比对到外显子50% 以上,就可以定义为外显子

Classification of aligned reads in Cell Ranger
Classification of aligned reads in Cell Ranger

5.2 Cell Ranger Reference

在选择Reference的时候,大家可以按以下table进行选择。👇

Cell Ranger Reference Species Assembly/Annotation Genes before filtering Genes after filtering
2020-A human GRCh38/GENCODE v32 60668 36601
2020-A mouse mm10/GENCODE vM23 55421 32285
3.0.0 human GRCh38/Ensembl 93 58395 33538
3.0.0 human hg19/Ensembl 87 57905 32738
3.0.0 mouse mm10/Ensembl 93 54232 31053
2.1.0 mouse mm10/Ensembl 84 47729 28692
1.2.0 human GRCh38/Ensembl 84 60675 33694
1.2.0 human hg19/Ensembl 82 57905 32738
1.2.0 mouse mm10/Ensembl 84 47729 27998

5.3 UMI计数

  • 这里我们注意一下两点👇

  • 如果两组或更多的reads具有相同的barcodeUMI,但基因注释却不相同,那么reads最多的基因注释用于UMI计数,舍弃其他组。

  • 我们再极端一点,如果两组reads一样的话,这个时候我们可能需要舍弃所有组,因为这个时候基因注释已经不准确了。😤


5.4 细胞过滤

1️⃣ 未经过滤的raw data, feature-barcode matrix会包含很多空的 droplets,在矩阵中并不是0,因为会有来自破碎细胞RNA所以,这种数据我们需要进行过滤,而后再进行分析。🥳

2️⃣ 我们通常需要使用Cell Ranger 2.2Cell Ranger 3.0进行过滤。👇

Knee plots and empty drop cutoffs identified by the Cell Ranger 2.2 and 3.0 filtering algorithms
Knee plots and empty drop cutoffs identified by the Cell Ranger 2.2 and 3.0 filtering algorithms

3️⃣ 举个栗子🌰

肿瘤样本通常包含大型肿瘤细胞与少量的肿瘤浸润淋巴细胞(TIL),如果你对TIL特别感兴趣,那这个时候可能就要用到EmptyDrops的方法来进行过滤了。

6其他方法

当你使用Cell Ranger时,你可能会觉得它不够快,这里我们介绍两个速度快准确度高的方法,STARsoloAlevin,这里不做具体介绍了,推荐大家选择STARsolo。🤒


最后祝大家早日不卷!~

点个在看吧各位~ ✐.ɴɪᴄᴇ ᴅᴀʏ 〰

分类:

后端

标签:

后端

作者介绍

jamesbang
V1

wx🔍: Grassssss 卷起来了