比较英语句子相似度的算法

11

我有一系列的句子,需要分析它们的相似程度。

是否有已经建立好的算法可以实现这个功能?

我关心以下几点:

  • 含有相同的单词(暂时忽略词形变化)
  • 以类似的顺序包含相同的单词

之前我使用过Levenshtein距离和n-gram用于拼写检查,但不确定是否适用于我的目的。

简单地说,“我不在意拼写差异,错别字可视为不同的单词”,虽然也许考虑这一点会更好。

也许将句子按空格拆分并应用上述(或其他)算法的混合方法是一个起点。

有哪些选项可供选择?有什么建议吗?

谢谢!

2个回答

13

这篇论文比较了几种句子相似度度量方法。也许你可以直接使用其中一种,或根据自己的需求进行修改。

否则,“句子相似度度量”是一个很好的谷歌关键词。


@Andrew 其实我只是谷歌了一下,因为这个问题引起了我的兴趣 :) 我对这个主题不熟悉... 我理解你的问题可能在技术细节方面,这些细节在那篇论文中大多被忽略了(使其具有拼写错误容错性,屈折变化等。很好,英语单词几乎没有屈折变化)。 - Szabolcs

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接