
谢大飞
2023/05/04阅读:25主题:默认主题
转录组分析流程
关于主题
之前有幸在导师的指导下,顺利发表了一篇关于植物转录组分析的论文。

今天在整理论文写作和投稿的心得,就想着顺便把自己文章中转录组数据分析的流程整理一下
主要涉及了转录组分析的流程、使用的R包或者软件以及用到的代码
大概会是个系列的文章以及视频,尽量在五一假期更完叭
转录组数据获得
对于转录组数据来说,在设计实验方案的时候肯定是围绕着一定的生物学问题来的,然后设计不同的采样时间、生物学重复等来进行采样,然后可以选择自行提取RNA再送公司进行测序
小tips:
-
采样的时间一定要确定好,围绕着需要探究的生物学问题 -
样品的生物学重复尽量在三个以上,以防有样品数据不好或者有污染而造成数据量不够
转录组分析流程
我进行的转录组分析的大概流程就是:获得read counts数、差异表达分析、UpSetR绘制韦恩图、GSA(gene set analysis)分析、GO(gene ontology)富集分析、KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析、基因相关性分析
1. 获得gene count表
这个数值应该测序公司应该会返给你,按道理说是这样的。但如果没有的话,应该可以问公司要(因为是真的遇到了没有给counts数的公司)

公司给的应该是上图所示的一个完整的表格,包含了基因(列)和测序的时间及生物学重复(行)及其对应的counts值,在进行分析之前需要按照基因和每个生物学重复一一分开

转录组数据整理、导入Rstudio以及处理,处理之后的数据可用于后续的差异表达分析
2. 差异表达分析
我在分析时选用的是edgeR,主要进行了MDS-样本的无监督聚类分析、dispersion 离散分析和差异表达分析。然后导出了差异基因的列表,用于进行后续的分析
3. UpSetR绘制韦恩图
对于得到的差异表达基因,先进行了一个统计,使用韦恩图查看不同的比较组中的共有的基因和其特有的基因
使用的是UpSetR绘制韦恩图,因为我的比较组有点多,所以使用的UpSetR来进行的分析。(之前有录过视频,打算把代码整理出来)

4. GSA(gene set analysis)分析
GSA(gene set analysis)分析使用的是Piano包,对得到的差异基因集进行了一个大概的富集分析,看了大概的趋势

Piano_GSA(gene set analysis)分析_文章
Piano_GSA(gene set analysis)分析_视频
5. GO(gene ontology)富集分析
GO(gene ontology)富集分析使用的是ClusterProfiler这个包,因为是植物,所以需要使用基因组的注释信息自己构建OrgDB的包

那其实对于GO富集结果,还是用了Goatools来查看确定了GO的层级结构图

GO富集分析和KEGG分析_ClusterProfiler_文章
GO富集分析和KEGG分析_ClusterProfiler_视频
6. KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析
KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析使用的也是ClusterProfiler,需要用到KEGG的注释信息

7.基因相关性分析
从GO富集结果和KEGG通路结果中找到了关注的内容,然后分析里面包含的基因,使用pheatmap包并且对基因进行了一个相关性的分析

基因的相关性分析之前整理了文章和视频:
论文写作及投稿心得
就是说行走的反面教材留给大家的一些典型案列,请时刻牢记放平心态,保护导师血压
可能会主要分享一些论文写法方面的内容,因为我的文章问题实在是多的有些离谱
结语
这大概会成为小谢第一个完整的系列文章,本来应该是肿瘤的外显子分析的,但是因为自己的知识储备量不足,所以还需要通过进一步学习之后再整理。
那希望小谢坚持努力学习吧!
作者介绍
