
jamesbang
2022/10/03阅读:72主题:雁栖湖
🤩 scRNA-seq | 吐血整理的单细胞入门教程(从原理到代码实操)(二)

1写在前面
上期我们分享了单细胞测序(scRNA-seq
)的基本概念
,样品的制备
以及细胞的捕获
。😁
本期我们继续介绍一下转录本定量分析
、实验设计
、批次效应
和混杂因素
。🤒
在开始前我们还是先思考几个问题,如下:👇
Q1: 不同
protocol
有什么区别,优缺点是什么?
Q2: 在进行scRNA-seq
的实验设计时,要考虑哪些问题?
Q3: 与bulk RNA-seq
的数据相比,scRNA-seq
数据有什么不同?
2定量方法
目前我们常见的转录本定量方法有两种,full-length
和tag
。🧐
2.1 full-length
full-length
实现整个转录本的count
,而tag
的只capture
5'或3'端。🤨
scRNA-seq
的full-length
文库构建与bulk RNA-seq
相似,如SMART-seq2
。
从理论上讲,full-length
应该可以提供一个均匀的转录本coverage
,但有时在coverage
上还是有一定的偏差。
full-length
一大优势就是可以检测到不同剪接体(splice variants
)。😯

2.2 tag
如果使用tag
的方法进行scRNA-seq
,则只对转录本的一端(3'或5'
)进行测序。
目前大多数scRNA-seq
都是基于tag
的,如10x Chromium
,
-
优点:可以与 UMI
(unique molecular identifiers
)结合,提高定量的准确性。 -
缺点: 由于只限于转录本的一端,无法区分 isoforms
。

Note!
这个图展示了不同细胞中average coverage
的情况,有明显的3' bias
。
而且3个细胞群明显离群,可能是RNA
降解导致的。
2.3 为什么使用UMI
由于在PCR
的过程中,扩增是指数级的,可能会导致扩增不均,从而高估基因的表达量。🫠
为了解决这个问题,cell barcodes
会标记上一段随机核苷酸序列(UMI
),而这个UMI
是唯一的。
在读取count
时,将UMI
纳入,从而更准确的计算转录本的丰度。🤫

2.4 选3' 还是5' tag
这个可能要根据大家具体的实验目的来进行选择,常用的就是3’
的方法。🧐
但5'
也有其优势,如可以获得有关转录起始位点
(TSS
)的信息,从而探索不同细胞之间是否存在不同的TSS
。😘


3实验设计
3.1 那么多方法怎么选?
首先我们要明确的就是选择不同方法还是要基于你的科学问题
,你的研究目的
。😐
低通量
的方法与高通量
的方法相比具有更高的灵敏度
,如10x Chromium
。
另一方面,低通量
方法很难capture
到样本中一些比较稀有的细胞类型,导致细胞群的特征不完整。😤


3.2 scRNA-seq数据的不同之处
测序完成后,每个library
代表一个细胞,而不是一群细胞。🤩
所以,每个细胞都是独一无二的,在单细胞
水平上没有办法进行 "生物学重复"。😕
我们一般需要进行相似性聚类
,然后在相似细胞群
之间进行比较。
4批次效应
批次效应
(batch effects)是一定要考虑到的问题,即使用不同的技术对相同的样本进行scRNA-seq
,也会有批次效应
,可以通过normalise
来减少批次效应
。

5混杂因素
整个scRNA-seq
的过程中,应避免实验因素(如治疗
、表型
或疾病
等)、准备样品时间、测序时间等对结果的影响。
-
举个栗子🌰 -
假设我们准备对10个病人的 control
和diseased
组织进行scRNA-seq
,如果每天只能处理10个样本,最好是每天做5个control
和5个diseased
的样本,而不是一天准备所有control
的样本,另一天准备所有diseased
的样本。
另一个需要考虑到的就是样本的可重复性。
-
举个栗子🌰 -
当从一个器官收集组织时,最好从器官的不同部位采集多个样本。 -
由于基因表达可能受昼夜节律( circadian changes
)的影响,我们最好也在同一个时间点进行取样。


点个在看吧各位~ ✐.ɴɪᴄᴇ ᴅᴀʏ 〰

作者介绍

jamesbang
wx🔍: Grassssss 卷起来了