我熟悉Python的
我对一种能够计算令牌级别编辑距离的函数感兴趣。这意味着您可以仅替换/添加/删除整个令牌(而不是字符)。
以下是常规编辑距离和我所需的令牌化版本的示例:
nltk.metrics.distance
模块,该模块通常用于计算两个字符串的编辑距离。我对一种能够计算令牌级别编辑距离的函数感兴趣。这意味着您可以仅替换/添加/删除整个令牌(而不是字符)。
以下是常规编辑距离和我所需的令牌化版本的示例:
> char_dist("aa bbbb cc",
"aa b cc")
3 # add 'b' character three-times
> token_dist("aa bbbb cc",
"aa b cc")
1 # replace 'bbbb' token with 'b' token
是否已经有一些函数能够在Python中计算token_dist
?我更愿意使用已实现和测试过的内容,而不是编写自己的代码。谢谢提供的建议。
editdistance
函数,它将返回字符串之间的字符级编辑距离。如果你传递两个字符串列表,则该函数将返回标记/单词级别的编辑距离。 - NightFury13