
ZL1023
V1
2023/01/07阅读:47主题:全栈蓝
R语言:描述性统计分析

一、前言
学术论文中非常重要的一部分内容是 「结果与讨论」
结果与讨论的第一小节往往是 「描述性统计分析」
描述性统计分析主要回答以下几个问题:
-
数据的集中趋势; -
数据的离散程度; -
数据的分布状态; -
数据有无离群值。
大部分学术论文在结果与讨论的第一小节,一般必须回答前两个问题,即「数据的集中趋势」和「数据的离散程度」。
1.1 示例文献


原始文献的表达方式:
-
数据的集中趋势:算术平均值,中位数; -
数据的离散程度:标准差,四分位差; -
数据的分布状态:无; -
数据有无离群值:无。
二、R包
本期使用的R包主要有2个。
# load "tidyverse" package
library(tidyverse)
# load "gWQS" package
library(gWQS)
# load "dlookr" package
library(dlookr)
三、示例数据
「示例数据集简介:」gWQS包中有一个内置数据集,内置数据集的名称叫wqs_data,「wqs_data」数据集有「34种多环芳烃暴露数据」、25种邻苯二甲酸酯暴露数据和其他类型数据。
本期仅使用wqs_data数据集的「前5种多环芳烃暴露数据」和「性别」。
# PCBs name
PCBs_name <- c("LBX074LA","LBX099LA","LBX105LA","LBX118LA","LBX138LA")
# get the first 5 PCBs exposure data and sex
PCBs <- wqs_data[c(PCBs_name,"sex")]
# view PCBs data
head(PCBs)

四、描述性统计
本期想要获得的描述性统计量为
-
集中趋势:算数平均值,中位数; -
离散趋势:标准差,四分位差; -
分布状态:偏度; -
离群值:本期不讨论。
4.1 R代码实现
PCBs[PCBs_name] %>%
# use "describe" function from "dlookr" package
describe(statistics=c("mean","sd","IQR","skewness","quantiles"),
quantiles=c(0.05,0.25,0.50,0.75,0.95))

4.2 保存至本地
PCBs[PCBs_name] %>%
# use "describe" function from "dlookr" package
describe(statistics=c("mean","sd","IQR","skewness","quantiles"),
quantiles=c(0.05,0.25,0.50,0.75,0.95)) %>%
# save statistics results to local
write.csv(file="describe_statistics.csv")

4.3 分组统计
PCBs %>%
# group PCBs data by sex
group_by(sex) %>%
# use "describe" function from "dlookr" package
describe(statistics=c("mean","sd","IQR","skewness","quantiles"),
quantiles=c(0.05,0.25,0.50,0.75,0.95)) %>%
# arrange statistics results by sex
arrange(sex) %>%
# save statistics results to local
write.csv(file="group_describe_statistics.csv")

作者介绍

ZL1023
V1