黄思源

V1

2022/11/09阅读:33主题:雁栖湖

推荐几个细胞注释网站

细胞注释是单细胞分析中很关键的环节,初期会比较痛苦,做多了才会悟出一些规律。

我公众号早期写过几篇细胞注释相关的帖子:

  • 单细胞分析实录(7): 差异表达分析/细胞类型注释
  • SingleR如何使用自定义的参考集

除了写代码,我其实也用过三个不错的网站去辅助单细胞数据的注释,自己用了很长时间,觉得确实不错,所以想推荐给大家。

不包含CellMarker,主要是我个人觉得它不好用,经常输入一个marker,会出来好几种细胞类型,让人很难选择(也可能是我的用错了?)。比如我输入一个CPA3,它会显示:

如果不熟悉这个基因就很难选了。(实际上这是Mast cells很典型的marker基因)

再后来它的网站打不开,我就没怎么用了。

下面介绍这三个网站,以一个实际分析中产生的表格为例(细胞类型已经被我mask掉了,能一眼看出来的算老手了,哈哈,那就假装不知道吧)

PanglaoDB

网址:https://panglaodb.se/search.html

输入基因名之后(以第一个基因TPSAB1为例),就会出现一些统计信息:

  • 有多少高表达该基因的cluster被注释成了对应的celltype
  • 在不同数据集中,该基因表达排名第几(越靠前越好)

Enrichr

网址:https://maayanlab.cloud/Enrichr/

其实这是一个做富集分析的网站,非常好用。(不过大部分人都只熟悉clusterProfiler)

我今年才发现这个网站上线了细胞注释的板块,整体不错。细胞注释有一种思路是仿照富集分析来做的,只不过把常用的通路基因集换成了细胞类型marker基因集

用法很简单,丢进去差异基因就可以了。下面我复制粘贴示例表格的前100个基因(按照avg_log2FC排序,具体数量不固定,一般选几十上百就可以)

点击Cell Types

它给的参考数据库比较多,需要鉴别一下,这里我只列举了两个参考数据库。

CellTypist

网址:https://www.celltypist.org/

用法很简单,按照要求上传文件即可(如果是免疫细胞,其他选项不用改;如果是非免疫细胞,还需要Select Model

GitHub上面也有python命令行用法(写得很清楚),一般细胞数多了,我就用命令行去跑,速度也挺快:

https://github.com/Teichlab/celltypist

我个人觉得单细胞软件自动注释的结果好坏更取决于参考集的质量,比起软件本身。第三个工具免疫细胞注释结果比较准,非免疫细胞一般。

我现在已经不用singleR注释免疫细胞了,主要是这个工具的命令行实在太简单了,基本一两行就OK。


不管是用啥软件对每个cell自动注释,我都只是作为参考,最终注释会在cluster水平上重新定义。比如cluster0有99%的细胞注释成A,1%的细胞注释成B,若确认只有cluster0高表达A的marker基因(比如画小提琴图;这一步叫手动注释),最终这些细胞都会被注释成A。——(手动、自动相结合的注释策略)


好啦,先介绍这些,我们下期再见!点击”阅读原文“,可以评论哦~

分类:

其他

标签:

其他

作者介绍

黄思源
V1