14得票4回答
在文本中查找与给定关键词相似度最高的子字符串

假设有这段文本=我喜欢苹果、奇异果、橙子和香蕉,并且搜索字符串为奇异果和香蕉。使用相似性算法,例如Jaccard指数,如何高效地找到在text中与searchString最相似的子字符串。 基本上,我正在尝试查找文本部分(文本有很多错误、拼写错误、额外符号和空格),这些部分与我拥有的关键字列...

12得票5回答
在一长段字符中找到单词。自动标记化。

在一长串字符中,如何找到正确的单词? 输入:"The revised report onthesyntactictheoriesofsequentialcontrolandstate" Google的输出:"The revised report on syntactic theories s...

10得票3回答
用于具有数万个非常大文件的IDE的快速子字符串搜索算法

我正在开发类似IDE的东西,将处理数万个非常大(文本)文件,我正在调查该主题的最新技术。 例如,Intellij的标准(非正则表达式)搜索算法几乎是立即完成的。他们是如何做到的?他们只是在内存中保留了可搜索文件的一些后缀树吗?他们只是将文件的很大一部分内容保存在内存中,以便在内存中执行标准的...

8得票3回答
最长回文前缀

如何在O(n)时间复杂度内找到一个字符串的最长回文前缀?

8得票2回答
前后缀的曼哈顿距离算法替代方案

我有一个大型城市数据库,它是从许多不同的来源编译而成。我正在尝试找到一种简单的方法来基于城市名称轻松识别重复项。天真的答案可能是使用Levenshtein距离。然而,城市的问题在于它们经常具有与所在国家有关的前缀和后缀。 例如: Boulleville vs. Boscherville ...

8得票5回答
字符串算法相关书籍推荐

关于字符串算法已经有很多帖子: 查找相似文本的算法 相似字符串算法 高效字符串匹配算法 然而,没有提到任何一般性的文献。 请问有没有推荐的书籍可以全面地探讨各种字符串算法?特别感兴趣的话题是模糊字符串匹配(例如谷歌提供的更正搜索字符串变体)。 非常感谢您的建议。