我需要一种解决方案来识别书中不正确的章节标题。我们正在开发一个书籍摄取系统,可以进行各种验证,如拼写检查和过滤冒犯性语言。现在,我们想标记那些与章节内容不符的章节标题。例如,如果标题是“脾脏的功能”,我就不希望这一章节是关于肝脏的。
我熟悉模糊字符串匹配算法,但这似乎更像是自然语言处理或分类问题。如果我能匹配(或接近匹配)短语“脾脏的功能”,那就太好了——高置信度。否则,在文本中出现“功能”和“脾脏”的高频率也会产生置信度。当然,它们越接近越好。
这需要在内存中、即时地,并且使用Java完成。我的当前天真方法是简单地对所有单词进行标记化,删除噪声词(如介词),提取词干,然后计算匹配次数。至少我希望标题中的每个单词在文本中都出现一次。
是否有不同的方法,理想情况下考虑到距离和顺序等因素?
我熟悉模糊字符串匹配算法,但这似乎更像是自然语言处理或分类问题。如果我能匹配(或接近匹配)短语“脾脏的功能”,那就太好了——高置信度。否则,在文本中出现“功能”和“脾脏”的高频率也会产生置信度。当然,它们越接近越好。
这需要在内存中、即时地,并且使用Java完成。我的当前天真方法是简单地对所有单词进行标记化,删除噪声词(如介词),提取词干,然后计算匹配次数。至少我希望标题中的每个单词在文本中都出现一次。
是否有不同的方法,理想情况下考虑到距离和顺序等因素?