数据预处理,为后续的机器学习搭建数据基础,避免个别样本对结果产生大的误差

简述

数据预处理的过程: 输入数据 -> 模型 -> 输出数据

数据样本矩阵

| 年龄 | 学历 | 经验 | 性别 | 月薪 |

| ---- | ---- | ---- | ---- | ---- |

| 25 | 硕士 | 2 | 女 | 10000 |

| 20 | 本科 | 3 | 男 | 8000 |

| ... | ... | ... | ... | ... |

样本矩阵:一行一样本,一列一特征

输出向量:其中的每个元素与一个样本相对应

sci-kit learn(又称sklearn)经典 机器学习框架

引入方式

# 解决机器学习问题的科学计算工具包
import sklearn.preprocessing as sp

均值移除

将样本矩阵中的各个列(特征)的平均值调整为0,标准差调整为1,以此均化不同的特征,使它们对模型预测结果的贡献度趋于近似一致。

标准差:又称均方差,标准偏差。方差的算术平方根。标准差能反映一个数据集的离散程度。

公式如下:

$\sigma=\sqrt{\frac{1}{N}\sum^{N}_{i=1}{(x_i-\overline{x})^2}}$

如何使样本矩阵中的每一列的平均值为0呢?