
ZL1023
V1
2023/01/07阅读:67主题:全栈蓝
R语言:频数表和交叉表

一、前言
学术论文中非常重要的一部分内容是「结果与讨论」
结果与讨论的第一小节往往是「描述性统计分析」
描述性统计分析主要回答以下几个问题:
-
数据的集中趋势; -
数据的离散程度; -
数据的分布状态; -
数据有无离群值。
大部分学术论文在结果与讨论的第一小节,一般必须回答前两个问题,即「数据的集中趋势」和「数据的离散程度」。
上期讨论了「连续型变量」的描述性统计分析,本期讨论「类别型变量」的描述性统计分析。
类别型变量的主要展示方式是「频数表」和「交叉表」。
连续型变量 | 类别型变量 | |
---|---|---|
集中趋势 | 算术平均值;中位数;等 | 频数;频率;等 |
离散程度 | 标准差;四分位差;等 | 无 |
分布状态 | 偏度;等 | 无 |
离群值 | 本期不讨论 | 无 |
1.1 频数表-示例文献


1.2 交叉表-示例文献


二、R包
本期使用的R包主要有一个:
-
compareGroups包:生成频数表和交叉表。
# load "tidyverse" package
library(tidyverse)
# load "compareGroups" package
library(compareGroups)
三、示例数据
本期使用的「regicor数据集」来源于「REGICOR研究」,该研究重点关注西班牙东北部地区缺血性心脏病的人群分布和相关危险因素。
本期仅使用「regicor数据集」的部分变量,包括:
-
sex:性别; -
smoker:吸烟状况; -
histhtn:高血压病史; -
histchol:高胆固醇病史; -
cv:心血管疾病。
# load "regicor" data
data(regicor)
# get related variables
demo_data <- regicor[c("sex","smoker","histhtn","histchol","cv")]
四、R语言实现
4.1 频数表
# creat frequency table
descrTable(demo_data)

# creat frequency table
descrTable(demo_data) %>%
# save frequency table to local
export2csv(file="fre_tab.csv")

4.2 交叉表
# creat cross table
descrTable(cv~.,data=demo_data) %>%
# save frequency table to local
export2csv(file="cro_tab.csv")

作者介绍

ZL1023
V1