常见距离衡量方式

2021-11-23
2 min read

Euclidean距离-欧几里得距离

欧式距离(欧几里得度量)

向量的自然长度,在二维和三维空间中就是两点之间的实际距离

Cosine距离- 余弦距离

余弦相似度是计算两个向量间夹角的余弦值,余弦距离就是1减去余弦相似度,即距离取值$[0,2]$, 保证了非负性

余弦距离体现了方向上的相对差异,在人脸识别,推荐系统上可以应用

Hamming距离 - 汉明距离

对两个字符串做异或操作得到的1的个数,即两个字符串之间相同位置不同字符的个数

Manhattan距离 - 曼哈顿距离

两点在标准坐标系上的绝对轴距的总和

在二维平面上,$d(x,y) = |x_1-x_2| + |y_1-y_2|$

Minkowski距离 - 闵可夫斯基距离

明式距离,可以看作欧式距离与曼哈顿距离的一种推广,也写作 $L_p$ 度量

$$(\sum_{i=1}^n|x_i-y_i|^p)^{1/p}$$

一般p取1或2,p=1为曼哈顿距离,p=2为欧式距离,p趋于无穷时为切比雪夫距离

Chebyshev距离 - 切比雪夫距离

是向量空间的一种度量,两点间距离定义为各个坐标之间数值差的最大值,也叫做棋盘距离(棋盘上从一个点走到另一个点所需要的步数)

$D(x,y) = max_i(|x_i-y_i|)$

在平面几何中,和任意一点切比雪夫距离为 r 的点会形成一个正方形,其边长为2r,且各边都和坐标轴平行

Jaccard距离 - 杰卡德距离

两个集合交集元素个数在并集中所占据的比例

$$ J(A,B) = \frac{|A\cap B|}{|A\cup B|} $$

显然,J越大表示两者相似度越高

Haversine距离 - 半正矢公式

根据两点的经度与纬度来确定大圆上两点间距离

Sorensen-Dice距离

定义为集合交集的 2 倍除以两个集合相加,描述简单集合之间的相似度

$$s = \frac{2|X\cap Y|}{|X|+|Y|}$$