k
kirito
V1
2022/11/30阅读:32主题:默认主题
R-统计分析
统计分析实战 -- 基于R
--1 chapter--
统计分析简介
-
统计分析是帮助我们对数据进行描述,建模及得出结论的有效技术手段。
-
统计分析的具体步骤:
1.了解业务问题;2.收集和清洗数据;3.数据描述及探索性分析;4.模型构建和解读;5.得出结论及建议。 -
简单的数据清洗和预处理:
针对原始数据问题-存在缺失值、重复值、异常值、错误值进行处理。处理手段比如利用平均值代替缺失值,或者删除。 -
数据描述及探索性数据分析:
常用的图表类型:直方图、柱状图、箱线图、散点图、折线图、饼图。直方图可用于描述数据的分布信息。 -
模型构建:
根据是否存在因变量,将建模方法分为无监督学习和有监督学习,典型的无监督学习-聚类分析;有监督学习-线性回归、逻辑回归等。模型优劣一般从2个层面进行解读,一是其预测精度,本质是判断模型给出的预测值和真实值之间的差距,常用指标有均分误差,绝对误差,相对误差等;二是稳健的解读能力。
--2 chapter--
数据管理和预处理
-
基本的数据类型:
数值型、字符型、逻辑型、因子型、时间型。
数值型:
a=2;class(a) #class查看数据类型
#a是数值型
R中存在的特殊数值型,正无穷->Inf;负无穷->-Inf;NaN(非数值)。
字符型:
一般用单引号''或者双引号""括起来。
a = 'abc'
class(a) #a是字符型
逻辑型:
逻辑型数据取值为TURE和FALSE,一般在if条件语句和逻辑判断语句中用到。
(1 == 2) + (3 < 4) #逻辑语句加减
data = iris
data$Petal.Width[data$Species == 'setosa'] #iris数据集中选择品种是setosa的宽度数据
常见的判断语句->且'&' 或'|' 等'==' 大于'>' 小于'<'等。
因子型:
作者介绍
k
kirito
V1