我试图对一份真实的数据集(旅馆评论)进行机器学习。不幸的是,它受到垃圾信息的困扰,这些垃圾信息以几乎完全相同的评论形式出现,给我的工作带来了很大的复杂性。
我想要基于编辑距离或类似的算法从数据集中删除“几乎重复”的内容,并且因为数据集的大小超过100K, 算法必须是对数据集大小亚二次的。目前,我只能考虑标记经常重复的单个句子或短语,然后删除所有包含这些内容的评论,但这种策略很容易出问题。是否有更好的常见算法?
我试图对一份真实的数据集(旅馆评论)进行机器学习。不幸的是,它受到垃圾信息的困扰,这些垃圾信息以几乎完全相同的评论形式出现,给我的工作带来了很大的复杂性。
我想要基于编辑距离或类似的算法从数据集中删除“几乎重复”的内容,并且因为数据集的大小超过100K, 算法必须是对数据集大小亚二次的。目前,我只能考虑标记经常重复的单个句子或短语,然后删除所有包含这些内容的评论,但这种策略很容易出问题。是否有更好的常见算法?
显然,要完全解决这个问题可能需要撰写一篇不错的研究论文。这是我的建议。
在生物信息学中,我们经常面临这个问题。最常用的算法是BLAST (http://en.wikipedia.org/wiki/BLAST)。请仔细阅读该算法,您可能会了解其中涉及的内容。