如何通过页面id获取维基百科特定页面的所有链接（id）

Question

如何通过页面id获取维基百科特定页面的所有链接（id）

phpmediawikiwikiwikipedia-apimediawiki-api

3

我正在尝试使用Wiki API构建查询，以id格式返回特定文章的所有内部链接。我有某篇文章的pageId。例如，“Android（操作系统）”的id为12610483。在客户端中，我只需要使用id并稍后仅通过id获取所有信息。我的目标是从给定的文章id中找到所有内部链接（文章的ids）。不幸的是，我发现唯一可能的方法是获得由文章标题表示的链接：http://en.wikipedia.org/w/api.php?action=parse&format=json&pageid=12610483&prop=links是否有其他方法可以获取链接的ids而不仅仅是标题？

- Yonatan Levin

2个回答

-3

我认为你需要使用PHP Simple HTML DOM解析器

你可以在这里找到它 http://simplehtmldom.sourceforge.net/

- Mohammed Dawod

1

在这里使用HTML解析器绝对没有任何理由。
这样做会如何帮助获取页面ID？

- svick

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- svick · Accepted Answer

你需要做的是使用action=query&prop=links从pagelinks数据库表获取数据，而不是解析页面文本。

这仍然只会给你页面标题（因为链接可能导致不存在的页面，这意味着没有页面ID）。

但你可以通过将prop=links用作生成器来解决这个问题： http://en.wikipedia.org/w/api.php?action=query&format=json&pageids=12610483&generator=links&gpllimit=max 如果文章有很多链接（如你所建议的那样），你需要使用分页（请参见gplcontinue元素）。