我有两个字幕文件。 我需要一个函数来判断它们是否代表相同的文本,或者是相似的文本
有时候只有一个文件中才有像“风在吹……音乐在播放”这样的注释。 但是80%的内容都是相同的。该函数必须返回TRUE(文件表示相同的文本)。 有时候会出现拼写错误,比如1而不是l(one - L),就像这里一样: 她1离开了行李。 当然,这意味着函数必须返回TRUE。
我的评论:
该函数应该返回文本的相似度百分比-同意
“所有人都很高兴”和“所有人都不高兴” - 在这里这将被视为拼写错误,因此被认为是相同的文本。确切地说,函数返回的百分比将更低,但足够高以表明这些短语是相似的。
请考虑是否要对整个文件还是仅对搜索字符串应用Levenshtein算法-不确定Levenshtein,但是算法必须应用于整个文件。虽然它将是一个非常长的字符串。