比较英语句子相似度的算法

Question

11

我有一系列的句子，需要分析它们的相似程度。

是否有已经建立好的算法可以实现这个功能？

我关心以下几点：

之前我使用过Levenshtein距离和n-gram用于拼写检查，但不确定是否适用于我的目的。

简单地说，“我不在意拼写差异，错别字可视为不同的单词”，虽然也许考虑这一点会更好。

也许将句子按空格拆分并应用上述（或其他）算法的混合方法是一个起点。

有哪些选项可供选择？有什么建议吗？

谢谢！

- Andrew Bullock

2个回答

0

如果想忽略词形变化，你可以研究一下词干算法：http://en.wikipedia.org/wiki/Porter_stemmer

它们可以将单词还原为其根本形式。

- Matt

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Szabolcs · Accepted Answer

这篇论文比较了几种句子相似度度量方法。也许你可以直接使用其中一种，或根据自己的需求进行修改。

否则，“句子相似度度量”是一个很好的谷歌关键词。