杨谖之

V1

2022/05/24阅读:34主题:默认主题

关于 PCA 不能用于处理过拟合的思考

为什么会出现过拟合?

所谓的过拟合,就是模型在训练集上表现优异,但是其泛化能力差,在测试集以及实际环境中表现不好。

之所以出现过拟合,就是在训练模型的时候,掺杂了一些与目标相关性较弱的特征,这些特征扭曲了模型的参数,如果模型过分依赖这些特征,那么在实际环境中,这些无关参数可能导致预测出现极大的偏差。

举一个例子:所谓的“迷信”就是一种过拟合,无关的特征严重影响了动物对于结果的预测,比如“天上有流星坠落,地上就会有坏事发生”,流星坠落这个无关特征被过分强调,导致出现迷信,而事实上,如果你的数据集足够大,你就会发现,天上有没有流星坠落,地上总会有不好的事情发生,迷信的人则故意挑选了有流星坠落的数据集来训练模型。

如何防止过拟合?

既然了解了出现过拟合的原因,那么也就知道了如何解决过拟合。

我们只需要降低这些关联性较弱的特征在模型中的权重,就能有效纠正模型,这也就是所谓的正则化。如果把某一特征的权重降为0,那么其实就是删去了这一特征。所以删除一些特征,也能够改进过拟合。

为什么PCA不能有效处理过拟合

PCA的思想就是在尽可能保留更多特征的同时对特征进行压缩。

PCA的过程中,确实会丢掉一些特征,但是需要注意的是,丢弃的这些特征不一定是与目标值关联性较差的特征。

简而言之,PCA就是为了降维而不得不丢弃某些特征,但正则化则是有意识地丢弃了那些与目标值关联不大的特征。

分类:

人工智能

标签:

机器学习

作者介绍

杨谖之
V1