目录

标准化与规范化之间的选择 | 数据预处理的关键

标准化(Standardization)与规范化(Normalization), 有何不同?

规范化(Normalization)

也称“归一化”,它将值重新缩放到 [0,1] 范围内。 它也被称为最小-最大缩放。

如果您希望不同的数据集处于相同的正比例上,这将非常有用。 它还为值创建了一个边界。

例如:你分析股市时,一只股票可能在一年内的价格范围从 10 到 50 元,而另一只可能在 100 到 500 元之间。 没有规范化(Normalization)的话,尺度是不同的。 如果对价格进行规范化,相对表现就可以轻松比较。

标准化(Standardization)

重新调整数据,使其均值为0,标准差为1。 适用于假定数据以0为中心且所有特征方差相同的算法。 这里没有为数据创建边界。

例如: 一家酒店正在分析客人的反馈。 清洁度得分较低(人们对其评价很严厉),友善程度评价良好。

这是因为客人可能普遍对清洁度的评价标准更高,即使是小的不洁情况也可能导致严厉的评分,而对友善度的评价可能较为宽容。如果我们直接比较这两个特征的原始评分,我们可能会错误地认为清洁度是酒店最需要改进的地方。

我们无法比较纯粹的反馈分数。 通过标准化(standardizing)数据,我们可以比较结果,决定哪些领域真正表现不佳。

数据标准化处理后的数据将具有平均值为0和标准偏差为1的分布。通过这种方式,不同特征的数据被“标准化”到相同的尺度上,使得它们之间可以公平比较。

通过标准化这些评分,我们可以消除量纲和评分标准的影响,从而更准确地比较不同特征对总体满意度的影响。这有助于酒店管理者识别出真正需要改进的领域,而不是仅仅基于可能受到客观评价标准影响的原始分数。这种方法提供了一种更科学、更公正的比较方式,是机器学习和数据分析中常用的技巧。

选择标准化还是规范化?

数据分布:如果数据遵循或接近正态分布,标准化是一个更好的选择。如果数据没有明显的分布模式,或者需要被缩放到一个特定的范围内,使用规范化。

算法要求:一些算法(如SVM,k-NN,和逻辑回归)在数据特征具有相同的尺度时表现更好,这时候应该使用标准化。对于不基于距离的算法,如决策树或随机森林,缩放可能不是必要的。

数据的特性:如果数据中存在极端值或离群点,并且这些点对于模型来说是重要的,标准化可能是更好的选择。如果需要将所有特征缩放到相同的尺度,但不想让极端值对最终的缩放结果产生太大影响,应该使用规范化。