我正在寻找一种类似于最长公共子序列算法的算法,它具有字母相似度量。我的意思是,已知的算法将字母表中的所有字母视为完全不同,而我的用例中有些字母更容易编辑成另一个字母,因此应该由diffing算法视为相似。
例如,您可以考虑在文本行上工作的diffing算法,其中某些行与其他行更相似。
论文An O(ND) Difference Algorithm and Its Variations在第4页上指出:考虑为每个边添加权重或成本。将对角线边缘赋予权重0,非对角线边缘赋予权重1。我想有一个选项来分配任何从
例如,您可以考虑在文本行上工作的diffing算法,其中某些行与其他行更相似。
论文An O(ND) Difference Algorithm and Its Variations在第4页上指出:考虑为每个边添加权重或成本。将对角线边缘赋予权重0,非对角线边缘赋予权重1。我想有一个选项来分配任何从
[0;1]
区间内的权重。