我有一系列的句子,需要分析它们的相似程度。
是否有已经建立好的算法可以实现这个功能?
我关心以下几点:
- 含有相同的单词(暂时忽略词形变化)
- 以类似的顺序包含相同的单词
之前我使用过Levenshtein距离和n-gram用于拼写检查,但不确定是否适用于我的目的。
简单地说,“我不在意拼写差异,错别字可视为不同的单词”,虽然也许考虑这一点会更好。
也许将句子按空格拆分并应用上述(或其他)算法的混合方法是一个起点。
有哪些选项可供选择?有什么建议吗?
谢谢!
我有一系列的句子,需要分析它们的相似程度。
是否有已经建立好的算法可以实现这个功能?
我关心以下几点:
之前我使用过Levenshtein距离和n-gram用于拼写检查,但不确定是否适用于我的目的。
简单地说,“我不在意拼写差异,错别字可视为不同的单词”,虽然也许考虑这一点会更好。
也许将句子按空格拆分并应用上述(或其他)算法的混合方法是一个起点。
有哪些选项可供选择?有什么建议吗?
谢谢!