如何从Wordnet中归一化相似度度量

Question

6

我正在尝试计算两个单词之间的语义相似度。我正在使用基于Wordnet的相似度度量，即Resnik度量（RES），Lin度量（LIN），Jiang和Conrath度量（JNC）以及Banerjee和Pederson度量（BNP）。

为了做到这一点，我正在使用nltk和Wordnet 3.0。接下来，我想将从不同度量得到的相似性值组合起来。为此，我需要规范化相似性值，因为某些度量给出介于0和1之间的值，而其他度量给出大于1的值。

那么，我的问题是如何规范化从不同度量获得的相似性值。

额外的细节：我有一组词。我计算词之间的成对相似度，并删除与集合中其他词不强相关的词。

- nish

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- pkacprzak · Accepted Answer

如何对单个度量进行归一化

假设有一个任意的相似度量 M 和一个任意的单词 w。

定义 m = M(w,w)。然后，m 取得 M 的最大可能值。

让我们将 MN 定义为标准化度量 M。

对于任意两个单词 w, u，可以计算出 MN(w, u) = M(w, u) / m。

很容易看出，如果 M 取非负值，则 MN 取值在 [0, 1] 范围内。

为了计算由 k 个不同度量 m_1, m_2, ..., m_k 组合而成的自定义度量 F，首先使用上述方法独立地对每个 m_i 进行归一化，然后定义：

alpha_1, alpha_2, ..., alpha_k

其中alpha_i表示第i个度量的权重。

所有的权重之和必须为1，即：

alpha_1 + alpha_2 + ... + alpha_k = 1

然后，要计算w，u的自定义度量，您需要执行以下操作：

F(w, u) = alpha_1 * m_1(w, u) + alpha_2 * m_2(w, u) + ... + alpha_k * m_k(w, u)

显然，F的取值范围是[0,1]