数据预处理,为后续的机器学习搭建数据基础,避免个别样本对结果产生大的误差
数据预处理的过程: 输入数据 -> 模型 -> 输出数据
数据样本矩阵
| 年龄 | 学历 | 经验 | 性别 | 月薪 |
| ---- | ---- | ---- | ---- | ---- |
| 25 | 硕士 | 2 | 女 | 10000 |
| 20 | 本科 | 3 | 男 | 8000 |
| ... | ... | ... | ... | ... |
样本矩阵:一行一样本,一列一特征
输出向量:其中的每个元素与一个样本相对应
sci-kit learn(又称sklearn)经典 机器学习框架
引入方式
# 解决机器学习问题的科学计算工具包
import sklearn.preprocessing as sp
将样本矩阵中的各个列(特征)的平均值调整为0,标准差调整为1,以此均化不同的特征,使它们对模型预测结果的贡献度趋于近似一致。
标准差:又称均方差,标准偏差。方差的算术平方根。标准差能反映一个数据集的离散程度。
公式如下:
$\sigma=\sqrt{\frac{1}{N}\sum^{N}_{i=1}{(x_i-\overline{x})^2}}$
如何使样本矩阵中的每一列的平均值为0呢?