高级序列比对

Question

3

假设以下抄袭的生成模型：

抄袭者： 1. 删除文本的一部分 2. 重新排列文本的一部分 3. 添加新的文本。

例如，如果ABCD是原始文本(A、B、C和D可以是段落或一堆句子)，输出可以是DEAFCG，其中E、F和G是添加的附加文本。

此外，抄袭者会以较小的概率添加小错误(插入、替换和删除)。

我们如何检测这种抄袭实例？

到目前为止，我已经尝试使用最长公共子序列方法。它会检测到一组匹配的线性文本。在上面的示例中，它将检测到D或AC(取决于它们的长度)

我需要的是：处理此问题的有原则的方法。任何对现有文献的引用都将非常有帮助。对于想法的伪代码也很好。不要提供代码。

这既不是作业问题，也不是面试问题。我将我的实际问题简化成了这个玩具问题。

- ElKamina

根据您一些敏锐的回答，我想如果您在提问，那肯定是一个具有挑战性的问题！这里有一篇您可能看过的文章 - http://en.wikipedia.org/wiki/Plagiarism_detection - גלעד ברקן

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- maditya · Answer 1

有许多算法可用于各种应用程序的此类操作。据我所知，它们主要做的事情（也是您想要做的）是计算编辑距离： http://en.wikipedia.org/wiki/Edit_distance

例如，最长公共子序列处理添加和删除但不处理替换； Damerau-Levenshtein距离还考虑了替换以及相邻字符的转置。