首页手记 Python数据处理从零开始----第三章（panda...

Python数据处理从零开始----第三章（pandas）③数据标准化（1）

标签：

Python

标准化，也称去均值和方差按比例缩放

数据集的 标准化 对scikit-learn中实现的大多数机器学习算法来说是 常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差)，那么它们的表现力可能会较差。在实际情况中,我们经常忽略特征的分布形状，直接经过去均值来对某个特征进行中心化，再通过除以非常量特征(non-constant features)的标准差进行缩放。

例如，在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级，那么它就会在学习算法中占据主导位置，导致学习器并不能像我们说期望的那样，从其他特征中学习。

函数 [scale]"sklearn.preprocessing.scale"为数组形状的数据集的标准化提供了一个快捷实现:

from sklearn import preprocessingimport numpy as np
X_train = np.array([[ 1., -1.,  2.],
                     [ 2.,  0.,  0.],
                     [ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X_train)

X_scaled
Out[28]: 
array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

经过缩放后的数据具有零均值以及标准方差:

X_scaled.mean(axis=0)
Out[29]: array([0., 0., 0.])

X_scaled.std(axis=0)
Out[30]: array([1., 1., 1.])

预处理 模块还提供了一个实用类 StandardScaler ，它实现了转化器的API来计算训练集上的平均值和标准偏差，以便以后能够在测试集上重新应用相同的变换。因此，这个类适用于 sklearn.pipeline.Pipeline 的早期步骤:

from sklearn.preprocessing import StandardScaler
scaler = preprocessing.StandardScaler().fit(X_train)
scaler
Out[31]: StandardScaler(copy=True, with_mean=True, with_std=True)

scaler.mean_
Out[32]: array([1.        , 0.        , 0.33333333])

scaler.scale_
Out[33]: array([0.81649658, 0.81649658, 1.24721913])

scaler.transform(X_train)
Out[34]: 
array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

缩放类对象可以在新的数据上实现和训练集相同缩放操作:

 X_test = [[-1., 1., 0.]]
scaler.transform(X_test)                
array([[-2.44...,  1.22..., -0.26...]])

你也可以通过在构造函数 :class:StandardScaler 中传入参数 with_mean=False` 或者``with_std=False 来取消中心化或缩放操作

将特征缩放至特定范围内

一种标准化是将特征缩放到给定的最小值和最大值之间，通常在零和一之间，或者也可以将每个特征的最大绝对值转换至单位大小。可以分别使用 [MinMaxScaler] 和 [MaxAbsScaler] 实现。使用这种缩放的目的包括实现特征极小方差的鲁棒性以及在稀疏矩阵中保留零元素。以下是一个将简单的数据矩阵缩放到[0, 1]的例子:

X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...>>> min_max_scaler = preprocessing.MinMaxScaler()>>> X_train_minmax = min_max_scaler.fit_transform(X_train)>>> X_train_minmax
array([[ 0.5       ,  0\.        ,  1\.        ],
 [ 1\.        ,  0.5       ,  0.33333333],
 [ 0\.        ,  1\.        ,  0\.        ]])

同样的转换实例可以被用与在训练过程中不可见的测试数据:实现和训练数据一致的缩放和移位操作:

X_test = np.array([[ -3., -1.,  4.]])>>> X_test_minmax = min_max_scaler.transform(X_test)>>> X_test_minmax
array([[-1.5       ,  0\.        ,  1.66666667]])

可以检查缩放器（scaler）属性，来观察在训练集中学习到的转换操作的基本性质:

min_max_scaler.scale_                             array([ 0.5       ,  0.5       ,  0.33...])

>>> min_max_scaler.min_                               array([ 0\.        ,  0.5       ,  0.33...])

如果给 MinMaxScaler 提供一个明确的 feature_range=(min, max) ，完整的公式是:

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min

类 MaxAbsScaler 的工作原理非常相似，但是它只通过除以每个特征的最大值将训练数据特征缩放至 [-1, 1] 范围内，这就意味着，训练数据应该是已经零中心化或者是稀疏数据。例子::用先前例子的数据实现最大绝对值缩放操作。

以下是使用上例中数据运用这个缩放器的例子:

X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...>>> max_abs_scaler = preprocessing.MaxAbsScaler()>>> X_train_maxabs = max_abs_scaler.fit_transform(X_train)>>> X_train_maxabs                # doctest +NORMALIZE_WHITESPACE^array([[ 0.5, -1\. ,  1\. ],
 [ 1\. ,  0\. ,  0\. ],
 [ 0\. ,  1\. , -0.5]])>>> X_test = np.array([[ -3., -1.,  4.]])>>> X_test_maxabs = max_abs_scaler.transform(X_test)>>> X_test_maxabs                 
array([[-1.5, -1\. ,  2\. ]])>>> max_abs_scaler.scale_         array([ 2.,  1.,  2.])

在 [scale]模块中进一步提供了方便的功能。当你不想创建对象时，可以使用如 [minmax_scale]以及 [maxabs_scale].

作者：夜神moon
链接：https://www.jianshu.com/p/bdfc6cd3675c

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

富国沪深

算法工程师

手记
篇

粉丝

41

获赞与收藏

161

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27679 935

Python 算法入门教程

15个小节 30564 1177

Python 进阶应用教程

38个小节 73697 1149

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Python数据处理从零开始----第三章（pandas）③数据标准化（1）

标准化，也称去均值和方差按比例缩放

将特征缩放至特定范围内

阅读免费教程