朱zhu
V1
2022/05/21阅读:21主题:极简黑
计量资料统计描述
计量资料统计描述
统计描述
本例数据以医学统计学[1]中第二章例2-1为例,某医院用随机抽样方法检查了138名正常女子的红细胞数,其测量结果存储为表E02_01。
library(readxl)
E02_01 <- read_excel( "E02_01.xls" )#载入数据
E02_01#查看数据
> E02_01
# A tibble: 138 x 1
x
<dbl>
1 3.96
2 4.23
3 4.42
4 3.59
5 5.12
6 4.02
7 4.32
8 3.72
9 4.76
10 4.16
# ... with 128 more rows
> summary(E02_01)#描述性分析
x
Min. :3.070
1st Qu.:3.962
Median :4.230
Mean :4.227
3rd Qu.:4.527
Max. :5.460
我们可以通过summary()函数简单了解数据的简单描述。
也可加载pastecs包,使用stat.desc()函数进行更加细致的描述
> library(pastecs)
> stat.desc(E02_01)#使用pastecs函数进行描述性分析
x
nbr.val 138.00000000
nbr.null 0.00000000
nbr.na 0.00000000
min 3.07000000
max 5.46000000
range 2.39000000
sum 583.33000000
median 4.23000000
mean 4.22702899
SE.mean 0.03794304
CI.mean.0.95 0.07502975
var 0.19867505
std.dev 0.44572980
coef.var 0.10544754
>
比较常用的描述函数如下
> length(E02_01$x)#查看数量
[1] 138
> max(E02_01$x)#最大值
[1] 5.46
> min(E02_01$x)#最小值
[1] 3.07
> mean(E02_01$x)#均值
[1] 4.227029
> median(E02_01$x)#中位数
[1] 4.23
> sd(E02_01$x)#计算标准差
[1] 0.4457298
> var(E02_01$x)#计算方差
[1] 0.1986751
> sd(E02_01$x)/sqrt(length(E02_01$x))#计算标准误
[1] 0.03794304
> range(E02_01$x)
[1] 3.07 5.46
> quantile(E02_01$x,c(0.025, 0.25, 0.5, 0.75, 0.975))#求分位数, 2.5%, 25%, 50%, 75%, 97.5 %的分位点
2.5% 25% 50% 75% 97.5%
3.40275 3.96250 4.23000 4.52750 5.18325
> IQR(E02_01$x)#四分位数间距
[1] 0.565
数据正态性检验(统计检验法、图形检验法)
> shapiro.test(E02_01$x)# 夏皮洛-威尔克正态性检验
Shapiro-Wilk normality test
data: E02_01$x
W = 0.98908, p-value = 0.3524
P=0.3524>0.05,可表示数据符合正态分布
QQ图
qqnorm( E02_01$x )# 画出E02_01的Q-Q图

直方图
hist(E02_01$x)#直方图

密度图
plot(density(E02_01$x))#密度图
可由密度图可知该数据分布基本对称,符合正态分布特征。
参考资料
《医学统计学》[第五版]: 孙振球,徐勇勇,人民卫生出版社
作者介绍
朱zhu
V1