我正在尝试使用维基百科API获取所有页面上的所有链接。目前,我正在使用: https://en.wikipedia.org/w/api.php?format=json&action=query&generator=alllinks&prop=links&pllimit=max&plnamespace=0 但是这似乎不是从第一篇文章开始,到最后一篇结束。我该如何让它生成所有页面和它们的链接?
英文维基百科大约有10.5亿个内部链接。考虑到list=alllinks模块每个请求的链接数量限制为500个,从API中获取所有链接并不现实。 相反,您可以下载维基百科数据库转储文件并使用它们。具体来说,您需要pagelinks dump,其中包含有关链接本身的信息,很可能还需要page dump,以将页面ID映射到页面标题。
generator=allpages
,但你肯定不想用它遍历英文维基百科的四千万个页面。 - Tgr