分类(class)与聚类(cluster)不同,分类是有监督学习模型,聚类属于无监督学习模型。聚类讲究使用一些算法把样本划分为n个群落。一般情况下,这种算法都需要计算欧氏距离。

概述

在输出未知的前提下,仅根据已知的输入寻找样本之间的内在联系,据此将输入样本划分为不同的族群。

量化相似度

欧式距离

$P(x1,y1)$

$Q(x2,y2)$

$|PQ|=\sqrt{(x1 - x2)^2 + (y1 - y2)^2}$

$P(x1,y1,z1)$

$Q(x2,y2,z2)$

$|PQ|=\sqrt{(x1-x2)^2+(y1-y2)^2+(z1-z2)^2}$

$P(x1,y1,z1,...)$

$Q(x2,y2,z2,...)$

张三(1.7,60)

李四(1.75,200)

王五(2.5,65)

赵六(1.72,61)

两个N维样本之间的欧氏距离越小,就越相似,反而反之。

用两个样本对应特征值之差的平方和之平方根,即欧氏距离,来表示这两个样本的相似性。

K均值聚类