类似于“统计不太可能短语”是如何工作的?
根据亚马逊:
亚马逊的“统计不太可能短语”(Statistically Improbable Phrases,SIPs)是“Search Inside!”计划中书籍文本中最具特色的短语。为了识别SIPs,我们的计算机会扫描“Search Inside!”计划中所有书籍的文本。如果他们发现一个短语在特定书籍中相对于所有“Search Inside!”书籍出现的次数很多,那么该短语就是该书籍的SIP。
SIPs在特定书籍内不一定是不可能的,但它们相对于所有“Search Inside!”中的书籍来说是不太可能的。例如,关于税收的书籍中的大多数SIP都与税收相关。但由于我们按照它们的不太可能得分显示SIPs,因此第一个SIP将是这本书提到比其他税收书籍更频繁的税收主题。对于小说作品,SIPs倾向于是独特的单词组合,通常暗示重要情节元素。
例如,对于Joel的第一本书,SIPs包括:leaky abstractions,antialiased text,own dog food,bug count,daily builds,bug database,software schedules。
有趣的是,这些短语通常只由2或3个单词组成。这使得事情变得更加有趣,因为这些短语可以重叠或包含彼此。