亚马逊面试问题

Question

亚马逊面试问题

algorithm

15

有一个动态变化的大词汇文件，我们不断地向其中添加一些单词。您如何跟踪每个时刻的前10个流行词？

我在一篇博客中找到了这个问题，但我无法理解答案。答案是：哈希表 + 最小堆。

我明白了哈希表为什么要用，但对最小堆部分不理解，有人可以帮助我吗？

- rplusg

2

通常情况下，您需要一个小根堆来跟踪最高的N个答案，因为每个阶段都有一个候选答案，并且您想知道它是否比小根堆中最差的答案更好 - 如果是，请从小根堆中删除前N个最差答案并插入候选答案。算法似乎很直观地应该用大根堆来选择最好的答案，但是在决定是否接受新的候选答案时，这是不合适的。（请记住，当您在最后提取前N个答案时，它们将首先进出排名最差的那个）。 - mcdowella

2个回答

1

如果您只想保留前10个，使用最大堆是过度的。将这10个条目保存在已排序的数组中将更简单、更快。

对于排序，只需从数组底部开始使用插入排序即可。您将需要检查候选项是否已经在前十名中，如果需要，则更新其位置。

- salva

1

如果您不保留其他条目，那么没有新的条目会进入前十名。 - Karoly Horvath

@KarolyHorvath：显然，您仍需要哈希表来计算每个条目的点击次数。我的观点是，使用最小堆来管理前10个条目是过度设计了。一个简单的排序数组将表现更好，实现也会更简单。实际上，对于增量更新的前N个（除非您有大量的并列），排序数组始终比最小堆表现更好。 - salva

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Avi Cohen · Accepted Answer

如果是“前十个趋势性词语”，则应该使用一个max-heap和一个hash-table。当向文件中添加新单词时，需要执行以下操作：

- 创建一个新元素x，x.key=word，x.count=1。 - 将x添加到hash-table中，O(1)。 - 将x添加到max-heap中，O(lgn)。

如果向文件中添加现有的单词，则需要执行以下操作：

- 在hash-table中查找x，O(1)。 - 更新x.count为x.count++。

当需要检索“前十个趋势性词语”时，需要执行以下操作：

- 从max-heap中提取10次，10*O(lgn)=O(10*lgn)=O(lgn)。

可以看出，所有必要的操作都以最多O(lgn)的时间完成。