jamesbang

V1

2022/10/03阅读:45主题:雁栖湖

🤩 scRNA-seq | 吐血整理的单细胞入门教程(从原理到代码实操)(二)

1写在前面

上期我们分享了单细胞测序scRNA-seq)的基本概念样品的制备以及细胞的捕获。😁

本期我们继续介绍一下转录本定量分析实验设计批次效应混杂因素。🤒

在开始前我们还是先思考几个问题,如下:👇

Q1: 不同protocol有什么区别,优缺点是什么?
Q2: 在进行scRNA-seq的实验设计时,要考虑哪些问题?
Q3:bulk RNA-seq的数据相比,scRNA-seq数据有什么不同?

2定量方法

目前我们常见的转录本定量方法有两种,full-lengthtag。🧐

2.1 full-length

full-length实现整个转录本的count,而tag的只capture5'或3'端。🤨

scRNA-seqfull-length文库构建与bulk RNA-seq相似,如SMART-seq2

从理论上讲,full-length应该可以提供一个均匀的转录本coverage,但有时在coverage上还是有一定的偏差。

full-length一大优势就是可以检测到不同剪接体(splice variants)。😯

Full-length RNA library preparation for Illumina sequencing.
Full-length RNA library preparation for Illumina sequencing.

2.2 tag

如果使用tag的方法进行scRNA-seq,则只对转录本的一端(3'或5')进行测序。

目前大多数scRNA-seq都是基于tag的,如10x Chromium

  • 优点:可以与UMIunique molecular identifiers)结合,提高定量的准确性。
  • 缺点: 由于只限于转录本的一端,无法区分isoforms
Example of 3’ bias in the gene body coverage, after aligning the sequencing reads to the transcriptome.
Example of 3’ bias in the gene body coverage, after aligning the sequencing reads to the transcriptome.

Note! 这个图展示了不同细胞中average coverage的情况,有明显的3' bias

而且3个细胞群明显离群,可能是RNA降解导致的。


2.3 为什么使用UMI

由于在PCR的过程中,扩增是指数级的,可能会导致扩增不均,从而高估基因的表达量。🫠

为了解决这个问题,cell barcodes会标记上一段随机核苷酸序列(UMI),而这个UMI是唯一的。

在读取count时,将UMI纳入,从而更准确的计算转录本的丰度。🤫

Protocol overview of 3’ libraries using the 10X Chromium protocol.
Protocol overview of 3’ libraries using the 10X Chromium protocol.

2.4 选3' 还是5' tag

这个可能要根据大家具体的实验目的来进行选择,常用的就是3’的方法。🧐

5'也有其优势,如可以获得有关转录起始位点TSS)的信息,从而探索不同细胞之间是否存在不同的TSS。😘

Single Cell 3' v3.1(Dual Index) Gene Expression Library
Single Cell 3' v3.1(Dual Index) Gene Expression Library
Single Cell 5' v2 Gene Expression Library
Single Cell 5' v2 Gene Expression Library

3实验设计

3.1 那么多方法怎么选?

首先我们要明确的就是选择不同方法还是要基于你的科学问题,你的研究目的。😐

低通量的方法与高通量的方法相比具有更高的灵敏度,如10x Chromium

另一方面,低通量方法很难capture到样本中一些比较稀有的细胞类型,导致细胞群的特征不完整。😤


3.2 scRNA-seq数据的不同之处

测序完成后,每个library代表一个细胞,而不是一群细胞。🤩

所以,每个细胞都是独一无二的,在单细胞水平上没有办法进行 "生物学重复"。😕

我们一般需要进行相似性聚类,然后在相似细胞群之间进行比较。

4批次效应

批次效应batch effects)是一定要考虑到的问题,即使用不同的技术对相同的样本进行scRNA-seq,也会有批次效应,可以通过normalise来减少批次效应

The same cell population was sequenced with three different single-cell protocols (colours).
The same cell population was sequenced with three different single-cell protocols (colours).

5混杂因素

整个scRNA-seq的过程中,应避免实验因素(如治疗表型疾病等)、准备样品时间测序时间等对结果的影响。


  • 举个栗子🌰
  • 假设我们准备对10个病人的controldiseased组织进行scRNA-seq,如果每天只能处理10个样本,最好是每天做5个control和5个diseased的样本,而不是一天准备所有control的样本,另一天准备所有diseased的样本。

另一个需要考虑到的就是样本的可重复性

  • 举个栗子🌰
  • 当从一个器官收集组织时,最好从器官的不同部位采集多个样本
  • 由于基因表达可能受昼夜节律circadian changes)的影响,我们最好也在同一个时间点进行取样。
Illustration of a confounded (top panels) and balanced (bottom panels) designs.
Illustration of a confounded (top panels) and balanced (bottom panels) designs.

最后祝大家早日不卷!~

点个在看吧各位~ ✐.ɴɪᴄᴇ ᴅᴀʏ 〰

分类:

后端

标签:

后端

作者介绍

jamesbang
V1

wx🔍: Grassssss 卷起来了