Echo之生生不息

V1

2022/12/24阅读:21主题:默认主题

R专辑

R专辑阅读

R专辑阅读 ​ 来源:Jimmy老师生信技能树的R专辑 https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzAxMDkxODM1Ng==&scene=1&album_id=1529373068601655297&count=3#wechat_redirect

1.【生信菜鸟经】如何系统入门R语言 开门必学,基础之基础 ​

2.用R语言做逻辑回归 程辑包‘ggplot2’是用R版本4.2.2 来建造的 建模-根据模型来预测-简单的可视化

重点是predict函数,type参数

​ 3. R语言中的排序,集合运算,reshape,以及merge总结 在R中,和排序相关的函数主要有三个:sort(),rank(),order(),其中sort(x)等同于x[order(x)] 基本运算 ​

  1. R语言入门学习路径+资源集(生信篇) 资源好多

  2. R语言的最好资源,一个就够!

“假如我们以后有了高级课程,你要记住,你不是来学R语言的,你是来开拓眼界的。“

这套哈佛教程有完整的并且免费的视频

Data Analysis for the Life Sciences

https://courses.edx.org/courses/course-v1:HarvardX+PH525.1x+2T2017/b60b30a885934cd5971b6fc620a41657/

所依赖的数据以及书中的代码在这里

PH525x series - Biomedical Data Science

http://genomicsclass.github.io/book/

当然还有其它

  1. R语言镜像 东边不亮西边亮

  2. 用R语言写爬虫收集整理所有开放期刊影响因子及审稿时长 天酷帅

  3. KEGG数据库的rest API(附带R语言小技巧) https://bioconductor.org/packages/release/bioc/html/KEGGREST.html

pathway gif动画版 可视化 https://github.com/ajmazurie/kegg-animate-pathway

一个基因ID转换R语言完成方式

  1. 【好书分享】《R语言实战(第2版)》

  2. 生信技巧第3课-请你务必学好R语言

理解R语言与Excel表格在数据处理的异同点

重中之重!!!

  1. 使用R语言获取人类所有基因的名字,ID,symbol以及别名 首先搜索了解 entrez gene ID, HUGO symbol, refseq ID, ensembl ID 这些专有名词咯。

library(org.Hs.eg.db)

  1. R语言读书笔记 5本以上书籍

  2. R语言入门新姿势 《R数据科学》

14.一文掌握SVM用法(基于R语言) support vector machine,故一般简称SVM,就是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器

*二分类变量

*多分类变量

*连续型变量

15. R语言学习 其中Bioconductor主要存放与生命科学数据分析相关的R包,包括1562(Software)+ 921 (AnnotationData)+ 342 (ExperimentData)+ 21(Workflow)

如何管理你的知识库?

如何学习R?

16.芯片的探针ID找到基因名-基于R语言 使用bioconductor注释包

17.R语言练习题10道 根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)

根据R包hgu133a.db找到下面探针对应的基因名(symbol)

找到R包CLL内置的数据集的表达矩阵里面的TP53基因的表达量,并且绘制在 progres.-stable分组的boxplot图

找到BRCA1基因在TCGA数据库的乳腺癌数据集(Breast Invasive Carcinoma (TCGA, PanCancer Atlas))的表达情况

提示:使用http://www.cbioportal.org/index.do 定位数据集:http://www.cbioportal.org/datasets 找到TP53基因在TCGA数据库的乳腺癌数据集的表达量分组看其是否影响生存

提示使用:http://www.oncolnc.org/

下载数据集GSE17215的表达矩阵并且提取下面的基因画热图 下载数据集GSE42872的表达矩阵,并且根据分组使用limma做差异分析,得到差异结果矩阵

18.使用methods函数来查看R语言里面的对象的操作方式 应用 19.生信人应该这样学R语言系列视频学习心得笔记分享 质量非常优,解决了很多疑虑

20.生信工程师全套教学视频之R语言专辑纪念版 似曾相识,只记得难度还是有的

  1. 30道练习题 很重要 配套视频—74h 统计学:

推荐一下 统计学基础:https://mp.weixin.qq.com/s/OtB2h6f00U2SRZLzveJKfQ

统计学精华-statQuest教学视频:https://mp.weixin.qq.com/s/X0PE9S0BgSuCcAV9zeY1jQ

22.程序员的浪漫

  1. 生信人的R语言书单

  2. 在R语言里面,把一个矩阵除以向量会发生什么 不简单

  3. 使用R语言展示我们生信技能树全国巡讲的征程 路径图--帅

  4. R语言代码相关疑问标准提问 有效提问需要基础,学习视频课程

  5. 使用R语言在向量的任何位置插入任何元素 更多R语言技巧,见B站,让我们一起送生信技能树R视频 调用 ins函数

  6. 生信技能树-R语言视频课听后感 干货

  7. 华清大学、京北大学联合发现:#学习R语言之数据挖掘可抑制新型冠状病毒# 首先是LINUX学习-R-数据挖掘-NGS

  8. 如何让你的数据对象say I do(R-数据索引) 对象类型结构:向量、矩阵和数据框

  9. 把一本R语言书看五遍还是看五本不同的书 需要看五本以上,甚至部分书籍需要看五遍以上

  10. 生信分析人员如何系统入门R(2019更新版) 网址+书+练习题

普通数据(向量,数据框,数组,列表)的高级操作,主要是apply家族函数,以及aggregate,merge, split,by 等函数的用法。

这是一个分水岭,用好了你就才可能是R入门了。也可以用一些包,比如reshape2,dplyr,可以做数据的高级操作。

  1. 把bam文件读入R,并且转为grange对象

bam文件是由比对软件将质控后的fq格式文件与参考基因组进行比对后的比对信息存储文件。https://www.jianshu.com/p/50be38f6cbb8

GenomicRanges是Bioconductor各个项目都在使用的基因组坐标的存储方式,它基于IRanges 建立,目前为BSgenome、Rsamtools、ShortRead 、rtracklayer、GenomicFeatures、 GenomicAlignments、VariantAnnotation 等提供支持

GenomicRanges是Bioconductor各个项目都在使用的基因组坐标的存储方式,它基于IRanges 建立,目前为BSgenome、Rsamtools、ShortRead 、rtracklayer、GenomicFeatures、 GenomicAlignments、VariantAnnotation 等提供支持(https://www.jianshu.com/p/b473a1ba95b2)

GRanges对象还有很多其它类型的操作,非常好玩的,split,shift,resize,flank,reduce,gaps,disjoin,coverage 其它求交集并集和都可以用,union,intersect,setdiff,pintersect,psetdiff

  1. 美国辛辛那提大学的商业分析专业R语言 R的知识点路线图搞定,如下:

#了解常量和变量概念

-加减乘除等运算(计算器)

-多种数据类型(数值,字符,逻辑,因子)

-多种数据结构(向量,矩阵,数组,数据框,列表)

-文件读取和写出

-简单统计可视化

-无限量函数学习

  1. 叫你不学R

Excel最大行数限制是1,048,576行,最大列数限制是16,384列

  1. 让你的基因有名字 library(clusterProfiler) GO富集分析代码 library(enrichplot)

  2. 画韦恩图那么容易,为什么拿到指定元素却有问题

画韦恩图:require("VennDiagram")

可以制作csv表格

提取元素

UpSetR包

  1. 不做实验、不查病历也能发文章?数据挖掘和 R 语言帮你轻松发 SCI

哈哈哈,想得美,哈哈哈

https://www.bilibili.com/video/BV1cs411j75B

  1. 对象何必到处乱找,自己创造即可

GSEABase 包

读取gmt文件看看GeneSetCollection 对象

线粒体核糖体基因

  1. 一些单细胞转录组R包的对象

Bioconductor的ExpressionSet是基石

monocle需要的用来构建 CellDataSet 对象的三个数据集:

表达量矩阵exprs:数值矩阵 行名是基因, 列名是细胞编号. 细胞的表型信息phenoData: 第一列是细胞编号,其他列是细胞的相关信息 基因注释featureData: 第一列是基因编号, 其他列是基因对应的信息

SingleCellExperiment:主要是scater包采用,也是可以从头构建。 主要是seurat包采用该对象,个人觉得并不是很方便,并不是上面的SingleCellExperiment 对象。

有些单细胞转录组R包,就没有封装为特殊的对象,而是简单的list即可,比如M3Drop这个单细胞转录组R包

  1. R代码里面的恼人的奇怪字体终于消失了

#Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:

第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。

第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。

第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘!

第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。

第5阶段:任务提交及批处理,脚本编写解放你的双手。

第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。

  1. 临床数据分析三板斧之R语言完成自动化三线表

library(tableone)

CreateTableOne(data = pbc)

完整的示例:

#首先对需要观测的临床特质值进行重新编码

# 去除不需要的临床信息

##三线表类型之一  切割数据

##生成三线表

## 最重要的三线表通常是以训练集和数据集来区分

  1. R语言确实会蛮耗费磁盘空间哦

GEO数据库挖掘课程等资料

  1. R语言奇淫巧技之pdftools包

pdftools包:

拆分

合并

把多个图片写入到同一个pdf里面,每个图片是一个页面

读取PDF里面的内容

  1. 自行入门R语言的故事 书视频和练习要结合的一个入门故事。

找到团体的真情流露也是无比羡慕之

  1. R语言里面双层list变成长形数据框
  2. 凡是Excel能实现的数据操作,理论上R语言也可以 排序,筛选
  3. R语言的一些配色的R包 library(ggsci)
  1. R语言的繁荣背后何尝没有隐患 dplyr包
  2. R语言的各种统计分布函数
  1. R语言数据类型和内置数据集那点事
  1. 要学会say no 也就是说在最开始面临是否编译的选择,只需要 选择no就好了 :

Do you want to install from sources the package which needs compilation? (Yes/no/cancel)

高级问题,先行记下

  1. 一个包的升级居然造成bioconductor如此大的破坏

bioconductor 的包主要是生物信息学相关

众所周知,发布在bioconductor的包主要是生物信息学相关,在官方可以看到其主要是分成3类:

--软件方面的包(包括各种芯片数据处理,NGS数据处理,差异分析等等!) --注释方面的包(第二类是一系列的基因组注释包,主要是各种ID的转换,kegg或者GO这样的功能注释,还有其它基因信息注释,转录本,外显子起始终止等等)

--实验数据的包(每一个实验数据包都是一篇优秀的生物信息学分析文章,分析方法,思路都是值得学习的!)

  1. 使用barcodeplot可视化你的基因排序

msigdb数据库网页里面有着丰富的基因集,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合包括H和C1-C7八个系列(Collection)

  1. 使用camera进行基因集分析

camera: Competitive Gene Set Test Accounting for Inter-gene Correlation  对这两个基因集进行统计学检验

  1. 一个bioconductor包居然发在了cancer research杂志

一个数据结构(S4对象)

S4对象基本上是R语言分水岭了,无论是理解并且使用它还是创造它,都是一个门槛,甚至我在讲解单细胞数据分析流程的时候,把S4对象的理解作为了基本功!

  1. 3个分组的表达量矩阵的两两之间差异分析

  2. 这50个ggplot2现成图表你居然没有从头到尾自己画一遍 ggplot2资源

  3. Z-score并不会影响很多统计学算法的结果

Z值(z-score)又称标准数,能够将不同量级的数据转化为相同量级,实现标准化。

Z-score后的值本身没有实际意义,仅使数据标准统一化。实测值>平均值,则z为正值,实测值<平均值,则z为负值。 以相关性为基础的一系列分析(如WGCNA),R提供了cov()和cor()函数分别用于计算协方差和相关系数

  1. 新手绘图一站式R包之ggpubr

  2. 新手绘图一站式R包ggstatsplot

  3. ggplot2绘图需要学多少个扩展包 ggplot2绘图

  4. 课后笔记:ggplot2优雅的显示WB结果

  5. 展示细胞比例变化之balloonplot和马赛克图 Gplots包

  1. 展示细胞比例变化之桑基图
  1. 使用ggbio画一个基因的3个可变剪切转录本示意图

  2. 你还在复制粘贴一个Rproject文件吗 ContextMenuManager 帮助你右键新建一个Rproject文件

  3. 什么,GitHub网站的文件你无法读取

  4. 学徒笔记——芯片数据的注释文件获取 通过 AnnoProbe 包的 checkGPL 函数检查

  5. 明明加载了包却无法使用它里面的函数

tradeSeq包

  1. 多分组的差异分析只需要合理设置design矩阵即可 构造 design矩阵
  2. R语言绘图练习——ggplot2画tSNE的聚类点图

t-SNE是目前来说效果最好的数据降维与可视化方法

TSNE的定位是高维数据可视化。对于聚类来说,输入的特征维数是高维的(大于三维),一般难以直接以原特征对聚类结果进行展示。而TSNE提供了一种有效的数据降维模式,是一种非线性降维算法,让我们可以在2维或者3维的空间里展示聚类结果。 73. 有了风险因子森林图为什么还需要列线图

列线图,又称诺莫图(Nomogram),它是建立在回归分析的基础上,使用多个临床指标或者生物属性,然后采用带有分数高低的线段,从而达到设置的目的:基于多个变量的值预测一定的临床结局或者某类事件发生的概率。

  1. 不是maf格式的somatic突变数据就没办法读入到maftools了么

《肿瘤基因测序数据分析》课程:

官方链接是:https://www.bilibili.com/video/BV1Sy4y1S7pz/

课程思维导图:https://mubu.com/doc/2Whkn5HVCGv

  1. 自定义你的pheatmap热图 pheatmap

  2. 多种方法绘制酷炫的桑基图

  3. 创造示例数据并且同步讲解绘图技巧的资源推荐 r-garp-gallery收入了大量利用R语言绘制的图形 网址:http://www.r-graph-gallery.com/

  4. 使用R语言的parallel包调用多个线程加快数据处理进度 并行计算的包parallel包

  5. R包安装失败居然真的是版本问题

  6. 头痛欲裂, 加载同样的包每次报错还不一样 换电脑时,R包加载

  7. 什么鬼,你才60秒? getOption('timeout') options(timeout=10000)

  8. 基因别名的规范化 R包limma居然有一个函数是alias2Symbol

  9. 染色体坐标排序的两个方法

  10. IMvigor210CoreBiologies包安装指北 IMvigor210CoreBiologies包

  11. 你不需要真的这个包,而仅仅是需要它里面的数据

一个免疫治疗数据队列包, IMvigor210CoreBiologies ,因为它是一个100多M的压缩包文件

  1. 正常的illumina芯片数据可以使用lumi包的lumiR.batch函数读取 不存在lumi

  2. 不正常的illumina芯片数据如果使用lumi包的lumiR.batch函数读取会失败

  3. 基于基因集的样品队列分组之PCA 画主成分分析图需要加载这两个包: library("FactoMineR") # library("factoextra")

  4. 基于基因集的样品队列分组之层次聚类

  5. 基于基因集的样品队列分组之gsea等打分

  6. 相关性分析返回相关性系数的同时返回p值

  7. KEGG数据库的12大代谢通路分类 文献标题是:《Metabolic-Pathway-Based Subtyping of Triple- Negative Breast Cancer Reveals Potential Therapeutic Targets》

  8. 快速将rmd文件转化为R纯代码文件 将rmd文件转化为R文件: knitr::purl("X.Rmd","X.R", documentation = 2)

  9. 在Mac或者Linux上面安装velocyto.R的成功经验分享 velocyto.R??

  10. 使用DEseq2做转录组测序差异分析的时候顺便去除批次效应

  11. 有必要把不同染色体差异基因使用圈圈图展示吗 圈圈图 火山图

  12. 使用R包的内置数据不能通过两个冒号吗

  13. 双端测序的转录组需要两个fastq文件独立定量吗

  14. 从 R 绘图入门看 R 语言学习方法论 统计学--bilibili 上的中文搬运:https://space.bilibili.com/1309928900/video

  15. 4个基因如何做go和kegg数据库注释

  1. 哪有什么对错呢--PCA

这次居然如此巧合,仅仅是因为加上了 limma::normalizeBetweenArrays 就使得一个在文章里面有统计学显著性的生存相关基因变得不显著了。 生存分析是目前肿瘤等疾病研究领域的点睛之笔!

  1. 复制粘贴就能运行的100套R实战演练代码也有错误

  2. 先差异后GSEA呢还是先ssGSEA后差异呢

  3. 生存分析的图你也要拼接吗 先用survminer包的arrange_ggsurvplots函数对多个生存分析图表进行拼接

  4. tidyverse对数据框取子集居然有bug tidyverse语法体系里面的filter函数。因为dplyr::filter

  5. 无法在线下载安装GitHub包

分类:

阅读

标签:

阅读

作者介绍

Echo之生生不息
V1