朱zhu

V1

2022/05/21阅读:21主题:极简黑

计量资料统计描述

计量资料统计描述

统计描述

本例数据以医学统计学[1]中第二章例2-1为例,某医院用随机抽样方法检查了138名正常女子的红细胞数,其测量结果存储为表E02_01。

library(readxl)
E02_01 <- read_excel( "E02_01.xls" )#载入数据
E02_01#查看数据

> E02_01
# A tibble: 138 x 1
       x
   <dbl>
 1  3.96
 2  4.23
 3  4.42
 4  3.59
 5  5.12
 6  4.02
 7  4.32
 8  3.72
 9  4.76
10  4.16
# ... with 128 more rows
> summary(E02_01)#描述性分析
       x        
 Min.   :3.070  
 1st Qu.:3.962  
 Median :4.230  
 Mean   :4.227  
 3rd Qu.:4.527  
 Max.   :5.460 

我们可以通过summary()函数简单了解数据的简单描述。

也可加载pastecs包,使用stat.desc()函数进行更加细致的描述

library(pastecs)
> stat.desc(E02_01)#使用pastecs函数进行描述性分析
                        x
nbr.val      138.00000000
nbr.null       0.00000000
nbr.na         0.00000000
min            3.07000000
max            5.46000000
range          2.39000000
sum          583.33000000
median         4.23000000
mean           4.22702899
SE.mean        0.03794304
CI.mean.0.95   0.07502975
var            0.19867505
std.dev        0.44572980
coef.var       0.10544754

比较常用的描述函数如下

> length(E02_01$x)#查看数量
[1138
> max(E02_01$x)#最大值
[15.46
> min(E02_01$x)#最小值
[13.07
> mean(E02_01$x)#均值
[14.227029
> median(E02_01$x)#中位数
[14.23
> sd(E02_01$x)#计算标准差
[10.4457298
> var(E02_01$x)#计算方差
[10.1986751
> sd(E02_01$x)/sqrt(length(E02_01$x))#计算标准误
[10.03794304
> range(E02_01$x)
[13.07 5.46
> quantile(E02_01$x,c(0.0250.250.50.750.975))#求分位数, 2.5%, 25%, 50%, 75%, 97.5 %的分位点
   2.5%     25%     50%     75%   97.5
3.40275 3.96250 4.23000 4.52750 5.18325 
> IQR(E02_01$x)#四分位数间距
[10.565

数据正态性检验(统计检验法、图形检验法)

> shapiro.test(E02_01$x)# 夏皮洛-威尔克正态性检验

 Shapiro-Wilk normality test

data:  E02_01$x
W = 0.98908, p-value = 0.3524

P=0.3524>0.05,可表示数据符合正态分布

QQ图

qqnorm( E02_01$x )# 画出E02_01的Q-Q图

直方图

hist(E02_01$x)#直方图

密度图

plot(density(E02_01$x))#密度图

可由密度图可知该数据分布基本对称,符合正态分布特征。

参考资料

[1]

《医学统计学》[第五版]: 孙振球,徐勇勇,人民卫生出版社

- END -

分类:

其他

标签:

其他

作者介绍

朱zhu
V1