生信分析笔记

V1

2022/10/27阅读:13主题:山吹

文献解读丨利用群体转录组方法和eQTLs寻找水稻抗病转录因子

最近在学习一篇群体转录组和eQTLs相关的文献,做一个简单的笔记。该论文分析了287份材料的转录组数据,并在一个远端eQTL调控热点中鉴定到一个关键转录因子,它能够激活下游抗毒素合成相关基因的表达,从而影响水稻抗毒素的代谢水平和抗病性。文章篇幅比较长,可能会分成好几期。

" eQTLs play critical roles in regulating gene expression and identifying key regulators in rice "

中文题目:eQTLs在水稻基因表达调控和关键调控因子的鉴定中具有关键作用
关键词:群体转录组,表达数量性状位点,关键调控因子,全转录组关联研究
DOI:10.1111/pbi.13912

主要内容摘要

  • 基因表达调控对植物的表型起着重要作用,转录组测序可以同时识别外显子变异定量基因表达
  • 本文对287份水稻材料的叶片转录组进行测序,获得177853个高质量的SNP位点。
  • GWAS分析出44354个eQTLs,调控13201基因的表达,以及17个局部eQTL和96个远缘eQTL。
  • 全转录组关联研究(TWAS)筛选了21个与抽穗期淀粉含量有关的候选基因
  • HS002是一个显著的远端EQTL热点,具有5个丰富的下游基因用于二萜抗毒素合成。 共表达分析、eQTL分析和连锁定位表明BHLH026是激活下游基因表达的关键调控因子。BHLH026是水稻合成二萜类抗毒素的重要调控因子,具有增强水稻抗病性的作用。

以上研究结果提高了对水稻基因组基因表达、变异和复杂调控网络调控机制的认识,并促进栽培水稻品种的遗传改良

基因表达是联系基因(内)和表型(外)的桥梁,在调控植物发育过程中有非常重要的作用。识别影响基因表达水平的eQTLs,对理解基因组变异调控基因表达水平以及基因组信息如何通过遗传中心教条传递到形态表型至关重要。
GWAS通过检测基因型和表型的变异来识别关联情况,但由于连锁不平衡的衰减和基因注释的局限性,该法不能准确识别候选基因和基因的功能。

transcriptome-wide association study (TWAS) 全转录组关联分析

TWAS能更准确地预测表型变异的候选基因,eQTL结合GWAS的数据能更加精确的定位基因位点。

研究结果

转录组测序及外显子SNP鉴定

作者从533份微核心种质资源中选出287份代表性品种,抽穗期取样进行转录组测序,得到110亿个双末端reads,质控后比对到参考基因组量化表达水平,其中特异性reads占70%左右。

然后,作者从数据中筛选出了177853个高质量SNP,用贝叶斯聚类方法对287份材料的群体结构进行分析。

  • k=9处,cv误差值最小
  • k=3处,三个水稻亚群最明显
  • k=6处,进一步将粳稻划分为两个亚群

根据最大似然法建立系统发育树,结果表明籼稻、粳稻和Aus亚群体位于不同的分支。

PCA主成分分析的结果也显示籼、粳和Aus亚群体的聚类关系,这些结果证明了作者的材料群体能够捕捉到丰富的遗传变异,能够支撑后续的研究工作。

eQTLs的全基因组定位

作者通过对转录组数据进行定量分析,确定了23325个在叶片中表达的基因,占到基因组注释基因总数的41%左右。
使用Fast-LMM软件,对287份材料的基因表达与基因组SNP数据进行关联分析,结果得出:14562个基因的表达与SNP具有显著相关性,作者通过聚类法将同一基因相关的多个SNP确定为eQTL区,总共从13201个基因中确定了44354个eQTLs,根据基因和SNP的位置观察,发现呈对角线富集。

除此之外,根据eQTL和基因的相对位置分为近端eQTL(local,小于100kb)和远端eQTL(distant,大于100kb),74%的基因具有近端eQTL,近端eQTL对基因表达的影响大于远端eQTL。 作者发现基因受eQTL调控方面,平均单个基因对应3.4个eQTL:

  • 9853个基因受近端eQTL调控
  • 8427个基因受远端eQTL调控
  • 5079个基因受两者同时调控

TSS表示转录起始位点,通过下图可以清楚的发现,大多数eQTLs都在基因附近,随着距离TSS越来越远,eQTL的分布减少,大约60%的eQTLs在30kb内。

近端eQTLs和共调控基因簇的鉴定

上面提到近端eQTL对基因表达调控具有更重要的作用。接下来作者进行基因富集分析。

  • KEGG富集显示这些基因在次生代谢产物合成过程中富集最为显著。
  • GO富集显示这些具有eQTL的基因在蛋白修饰、细胞死亡、应激反应等方面富集。

这些结果表明,具有近端eQTL调控的基因可能在次生代谢产物和合成、加工等过程发挥一定作用。

以往的研究表明,一个基因区域内可能含有大量的eQTLs并且影响着多个基因的表达。这个区域不均分分布,称其为“eQTL调控热点”,作者通过hot_scan软件鉴定了17个近端eQTL热点。结果表明大部分位于染色体的末端,而着丝粒附近很少(这可能与表达抑制或着丝粒逃逸有关)

作者对17个近端eQTL热点进行富集分析和与代谢基因簇的重叠分析,表明eQTL热点与代谢途径有关。

调控热点区包含26个与合成3-磷酸甘油相关的基因。 作者发现eQTL和基因形成共调控基因簇,并发现同一簇内的基因在玉米中具有相似的表达模式。

随后,作者检测了所有注释基因在3-磷酸甘油合成中的共表达,在热点区中显示了六种不同的表达模式和四个共调控基因簇。

同样,在另外一个样品中检测到6个油菜素类固醇合成相关基因,对43个油菜素类固醇合成相关基因的共表达分析显示了三种不同的表达模式,发现了一个共调控基因簇。

这些结果表明,由同一地方eQTL共同调控的基因簇在水稻中也普遍存在。

根据基因组和转录组解释表型变异

作者对287份材料的淀粉含量也进行了测定,然后利用GWAS分析出了25个与淀粉含量相关的关键基因座,然后用TWAS分析,结合表达数据和表型数据,检测到21个候选基因。

【参考文献】Liu, C., Zhu, X., Zhang, J., Shen, M., Chen, K., Fu, X., Ma, L., Liu, X., Zhou, C., Zhou, D. and Wang, G. (2022) eQTLs play critical roles in regulating gene expression and identifying key regulators in rice. Plant Biotechnol J., https://doi.org/10.1111/pbi.13912.

分类:

后端

标签:

后端

作者介绍

生信分析笔记
V1

欢迎关注公众号:生信分析笔记