向量之间的各种距离详解

向量之间的各种距离详解

在计算距离或散度时,每个指标的意义和大小范围有所不同。以下是 KL 散度、Cosine 余弦距离、Canberra 距离、Intersection(交集)、Clark 距离 的详细解读,包括 如何判断它们的大小和意义。

1. KL 散度(Kullback-Leibler Divergence)

公式:

DKL(P∥Q)=∑iP(i)log⁡P(i)Q(i)

D_{\text{KL}}(P \| Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)}

DKL​(P∥Q)=i∑​P(i)logQ(i)P(i)​

取值范围:([0, +∞\infty∞)),但通常在 ([0, 2]) 之间(实际应用中)。意义:

KL 散度越小:表示两个分布 ( P ) 和 ( Q ) 越接近。KL 散度为 0:表示 ( P ) 和 ( Q ) 完全相同。KL 散度较大:说明 ( Q ) 无法很好地逼近 ( P ),两个分布差异大。

如何看大小:

一般来说,KL 散度 < 0.1 说明两个分布很相似。KL 散度 > 1.0 说明两个分布有较大差异。如果 KL 散度特别大,可能是 ( Q(i) ) 过小甚至接近 0,导致数值发散。

2. Cosine 余弦距离

公式(基于 Cosine 相似度):

Cosine Distance=1−P⋅Q∥P∥∥Q∥

\text{Cosine Distance} = 1 - \frac{P \cdot Q}{\|P\| \|Q\|}

Cosine Distance=1−∥P∥∥Q∥P⋅Q​

取值范围:([0, 2]),但通常在 ([0, 1]) 之间。意义:

Cosine 距离 = 0:说明 ( P ) 和 ( Q ) 完全相似(即方向相同)。Cosine 距离 = 1:说明 ( P ) 和 ( Q ) 完全不相关(90°)。Cosine 距离 = 2:说明 ( P ) 和 ( Q ) 完全相反(180°)。

如何看大小:

Cosine 距离 < 0.1:表示两个分布基本一致。0.1 - 0.5 之间:说明有一些差异。接近 1:说明两个分布几乎正交(无关)。接近 2:说明两个分布完全相反。

3. Canberra 距离

公式:

Canberra Distance=∑i∣P(i)−Q(i)∣∣P(i)∣+∣Q(i)∣

\text{Canberra Distance} = \sum_{i} \frac{|P(i) - Q(i)|}{|P(i)| + |Q(i)|}

Canberra Distance=i∑​∣P(i)∣+∣Q(i)∣∣P(i)−Q(i)∣​

取值范围:([0, +∞\infty∞)),但通常在 ([0, 1]) 之间(归一化后)。意义:

Canberra 距离计算的是 相对变化,比欧几里得距离更敏感。适用于分布中包含较小值的情况,适合用于概率分布或归一化数据。

如何看大小:

Canberra 距离 = 0:说明 ( P ) 和 ( Q ) 完全相同。较小(< 0.3):两个分布较相似。较大(> 0.5):说明分布差异较大。

4. Intersection(交集距离)

公式:

Intersection=∑imin⁡(P(i),Q(i))

\text{Intersection} = \sum_{i} \min(P(i), Q(i))

Intersection=i∑​min(P(i),Q(i))

取值范围:([0, 1])。意义:

Intersection 越大,表示两个分布相似度越高(交集越大)。Intersection = 1:说明 ( P ) 和 ( Q ) 完全相同。Intersection = 0:说明 ( P ) 和 ( Q ) 完全不重叠。

如何看大小:

Intersection > 0.8:两个分布非常相似。Intersection ≈ 0.5:两个分布有较大差异。Intersection < 0.2:说明两个分布几乎不重叠。

5. Clark 距离

公式:

Clark Distance=∑i(P(i)−Q(i)P(i)+Q(i))2

\text{Clark Distance} = \sqrt{\sum_{i} \left(\frac{P(i) - Q(i)}{P(i) + Q(i)}\right)^2}

Clark Distance=i∑​(P(i)+Q(i)P(i)−Q(i)​)2​

取值范围:([0, +∞\infty∞)),但通常在 ([0, 2]) 之间。意义:

Clark 距离考虑了 相对变化率,对小数值部分的变化更敏感。适用于概率分布或归一化数据,能强调较小概率值的变化。

如何看大小:

Clark 距离 = 0:两个分布完全相同。Clark 距离 < 0.5:两个分布相似。Clark 距离 > 1.0:两个分布有较大差异。

🎯 总结对比

指标取值范围含义KL 散度[0, ∞)(一般 0-2)越小越相似(0 表示完全一致)Cosine 余弦距离[0, 2](一般 0-1)越小越相似,接近 1 表示无关Canberra 距离[0, ∞)(一般 0-1)越小越相似,较敏感Intersection 交集[0, 1]越大越相似(1 表示完全一致)Clark 距离[0, ∞)(一般 0-2)越小越相似,强调小概率部分

📌 适用场景

指标适用场景KL 散度适用于概率分布对比(模型分布 vs. 真实分布)Cosine 余弦距离适用于向量比较(嵌入向量、文本相似度)Canberra 距离适用于比例变化较大的数据(如概率)Intersection 交集适用于直方图、概率分布重叠度分析Clark 距离适用于归一化数据,强调小概率项的差异

🚀 总结

KL 散度:衡量概率分布的相似性,越小越相似,通常在 [0, 2] 之间。Cosine 余弦距离:用于向量对比,越小越相似,一般在 [0, 1] 之间。Canberra 距离:适用于有较小概率值的情况,越小越相似,通常在 [0, 1] 之间。Intersection 交集:衡量分布重叠度,越大越相似,范围 [0, 1]。Clark 距离:考虑相对比例变化,越小越相似,一般在 [0, 2] 之间。

如果你的数据是 概率分布,推荐使用 KL 散度、Intersection 和 Canberra 距离。

如果你的数据是 向量嵌入,推荐使用 Cosine 余弦距离。

如果你希望更关注 小值的变化,可以使用 Clark 距离。

希望这些解释能帮到你!🚀😊

💫 相关推荐

俄罗斯埃及赛事如何(俄罗斯对埃及比分成绩)
365bet手机投注

俄罗斯埃及赛事如何(俄罗斯对埃及比分成绩)

📅 08-29 👀 4225
苏丹的游戏空置房间与宅邸详细用途介绍
365bet手机投注

苏丹的游戏空置房间与宅邸详细用途介绍

📅 08-04 👀 4870
叮咚买菜还能撑多久?
完美体育365平台官网

叮咚买菜还能撑多久?

📅 08-05 👀 4816
44岁方力申官宣结婚,圈外老婆曾是邪教受害者,两人年龄相差14岁
钎的解释
完美体育365平台官网

钎的解释

📅 07-26 👀 562
发电厂是怎么生产电的?你绝对想不到,其实很简单!
365不给提款怎么办

发电厂是怎么生产电的?你绝对想不到,其实很简单!

📅 07-21 👀 4470
陌陌黄金转盘心动玫瑰多少星光 陌陌一千元能刷多少星光?
分期乐乐花卡有额度却无法使用?常见原因及解决办法
卡字笔画写法
完美体育365平台官网

卡字笔画写法

📅 09-21 👀 9738