制作一个维基百科链接树

4

https://dumps.wikimedia.org/enwiki/ - Termininja
你可能希望使用generator=allpages,但你肯定不想用它遍历英文维基百科的四千万个页面。 - Tgr
2个回答

6
英文维基百科大约有10.5亿个内部链接。考虑到list=alllinks模块每个请求的链接数量限制为500个,从API中获取所有链接并不现实。 相反,您可以下载维基百科数据库转储文件并使用它们。具体来说,您需要pagelinks dump,其中包含有关链接本身的信息,很可能还需要page dump,以将页面ID映射到页面标题。

3

我知道这是一个老问题,但如果有人正在搜索并找到它,我强烈建议查看Wikicrush来提取整个维基百科的链接图。它生成了一个相对紧凑的表示形式,可以用于非常快速地遍历链接。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接