检查一个单词是否由一个或多个连接的字典单词组成

Question

3

这是情景：

我有一个包含数百万个长度为3-32的随机字母字符串的数组和一个单词表（字典）数组。

我需要测试一个随机字符串是否可以由1、2或3个不同的字典单词连接而成。

由于字典单词会比较固定，因此我可以对它们进行任何类型的预处理。

理想情况下，我希望通过对字典进行某种类型的预处理来优化查找速度。

我应该考虑哪些数据结构/算法来实现这一点？

- Dogbert

所以它只能是1、2或3个单词（不能超过）？并且它必须是完整的随机字符串（不仅仅是一部分）？ - MacGucky

@MacGucky，我可能需要在以后支持4甚至5个单词。是的，它必须完全匹配。 - Dogbert

内存限制是什么？为什么不直接创建所有可能的组合并存储在Trie中？ - Aryabhatta

3个回答

2

将字典字符串存储在散列集数据结构中。遍历要检查的字符串可能被分为1、2或3个部分的所有可能拆分，并对每个这样的拆分在散列集中查找所有部分。

- Sven Marnach

0

- R.. GitHub STOP HELPING ICE

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Andrew White · Accepted Answer

首先，从您的字典中构建一个Trie结构，每个根节点都映射到一个字母。然后，每个第二级子树都将拥有所有可以用两个字母组成的单词，以此类推。

接下来，从单词的第一个字母开始，沿着Trie向下查找，直到找到匹配项，然后递归地将此算法应用于单词的其余部分。如果在任何时候都找不到匹配项，则知道无法通过连接形成该单词。