k

kirito

V1

2022/11/30阅读:32主题:默认主题

R-统计分析

统计分析实战 -- 基于R

--1 chapter--

统计分析简介

  1. 统计分析是帮助我们对数据进行描述,建模及得出结论的有效技术手段。

  2. 统计分析的具体步骤:
    1.了解业务问题;2.收集和清洗数据;3.数据描述及探索性分析;4.模型构建和解读;5.得出结论及建议。

  3. 简单的数据清洗和预处理:
    针对原始数据问题-存在缺失值、重复值、异常值、错误值进行处理。处理手段比如利用平均值代替缺失值,或者删除。

  4. 数据描述及探索性数据分析:
    常用的图表类型:直方图、柱状图、箱线图、散点图、折线图、饼图。直方图可用于描述数据的分布信息。

  5. 模型构建:
    根据是否存在因变量,将建模方法分为无监督学习和有监督学习,典型的无监督学习-聚类分析;有监督学习-线性回归、逻辑回归等。模型优劣一般从2个层面进行解读,一是其预测精度,本质是判断模型给出的预测值和真实值之间的差距,常用指标有均分误差,绝对误差,相对误差等;二是稳健的解读能力。

--2 chapter--

数据管理和预处理

  1. 基本的数据类型:
    数值型、字符型、逻辑型、因子型、时间型。

数值型:

a=2;class(a) #class查看数据类型
#a是数值型

R中存在的特殊数值型,正无穷->Inf;负无穷->-Inf;NaN(非数值)。

字符型:
一般用单引号''或者双引号""括起来。

a = 'abc'
class(a) #a是字符型

逻辑型:
逻辑型数据取值为TURE和FALSE,一般在if条件语句和逻辑判断语句中用到。

(1 == 2) + (3 < 4#逻辑语句加减
data = iris
data$Petal.Width[data$Species == 'setosa'#iris数据集中选择品种是setosa的宽度数据

常见的判断语句->且'&' 或'|' 等'==' 大于'>' 小于'<'等。
因子型:

分类:

后端

标签:

大数据

作者介绍

k
kirito
V1