39得票4回答
如何获取所有维基百科文章的标题列表

我希望获取所有维基百科文章的标题列表。 我知道从Wikimedia-powered Wiki获取内容有两种可能的方法。 一种是API,另一种是数据库转储。 我不想下载维基转储。 首先,它非常庞大,其次,我对查询数据库没有经验。 另一方面,使用API的问题是,我无法找到仅检索文章标题列表的方法...

16得票4回答
黑名单IP数据库

是否有公开的黑名单IP数据库可用于Web?由于存在许多公共网络代理,您是否知道像维基百科全球封锁使用的黑名单一样的东西。

178得票13回答
有没有专门用于检索内容摘要的维基百科API?

我只需要获取维基百科页面的第一段。 内容必须以HTML格式呈现,可以在我的网站上显示(因此不要使用BBCode或维基百科特殊代码!)

13得票6回答
反向维基百科地理标记查找

维基百科正在地理标记其很多 文章。(请看页面右上角。) 是否有API可以查询指定半径范围内的所有地理标记页面? 更新 好的,根据lost-theory的回答,我在DBpedia查询浏览器上尝试了这个: PREFIX geo: <http://www.w3.org/2003/01/...

8得票2回答
寻找从维基百科中提取的n-gram数据库

我实际上正在尝试解决与此问题相同的问题: 查找与特定单词相关的单词(特别是物体) 除了要求单词代表物理对象之外。答案和编辑后的问题似乎表明,一个很好的开始是使用维基百科文本作为语料库构建n-gram频率列表。在我开始下载庞大的维基百科转储之前,是否有人知道这样的列表已经存在? 顺便说一下...

10得票6回答
如何爬取整个维基百科?

我尝试过WebSphinx应用程序。 我意识到,如果我将wikipedia.org作为起始URL,它将无法进一步爬行。 因此,如何实际爬取整个维基百科? 有人能给我一些指导吗? 我需要专门寻找那些URL并放置多个起始URL吗? 有没有关于使用WebSphinx API的教程的好网站建议?

11得票4回答
获取维基百科文章的第一段(唯一文本)返回了不想要的结果

我正在尝试检索维基百科文章中的第一段文字,以此例子为例是UNIX,但它返回给我一个不希望得到的输出。 根据我在维基百科API和StackOverflow上的阅读,这是进行调用的请求URL: http://en.wikipedia.org/w/api.php?format=php&...

12得票4回答
Aho-Corasick算法的可扩展性

我希望能从一个关键词短语的数据库中(这些短语是从维基百科文章标题中提取的)搜索文本文档中的关键词短语。(例如,给定一个文档,我想知道是否存在任何对应的维基百科文章)。我了解到了Aho-Corasick算法。我想知道为数百万个条目构建Aho-Corasick自动机是否高效且可扩展。

8得票3回答
从维基百科获取数据并用AngularJS展示

我是一个新手,正在学习angularjs。我尝试从维基百科获取数据并在前端展示。 使用以下php代码我已经成功地从维基百科检索到了数据: $url = 'http://en.wikipedia.org/w/api.php?action=query&prop=extracts|info...

27得票8回答
维基百科文本下载

我想要下载完整的维基百科文本用于我的大学项目。我需要编写自己的爬虫程序来进行下载还是有公共数据集可以在线获取维基百科? 为了简单介绍我的项目,我想查找几个我感兴趣的文章中的有趣单词。但是为了找这些有趣的单词,我计划应用tf/idf来计算每个单词的词频并选取高频单词。但是为了计算tf,我需要知...