27得票3回答
如何从维基百科信息框中提取信息?

有一个花哨的信息框在某个维基百科文章中。如何获取<这个字段和那个>的值?

27得票8回答
维基百科文本下载

我想要下载完整的维基百科文本用于我的大学项目。我需要编写自己的爬虫程序来进行下载还是有公共数据集可以在线获取维基百科? 为了简单介绍我的项目,我想查找几个我感兴趣的文章中的有趣单词。但是为了找这些有趣的单词,我计划应用tf/idf来计算每个单词的词频并选取高频单词。但是为了计算tf,我需要知...

25得票3回答
如何通过API获取维基百科文章的Wikidata ID?

如何从英语维基百科文章名称中获取Wikidata ID,包括重定向文章?是否有API调用? 示例:Karachi >> Q8660 Karaachi >> Q8660 如何应对任务变更?现在,卡拉奇的媒体已重定向到巴基斯坦的媒体(维基数据项Q6805922),但以后可...

22得票2回答
多流维基百科转储

我下载了德语维基百科转储文件dewiki-20151102-pages-articles-multistream.xml。我的问题是:在这种情况下,“multistream”是什么意思?

22得票9回答
如何从维基百科获取信息框数据?

如果我有一个页面的url,如何使用MediaWiki Web服务获取右侧Infobox信息?

21得票3回答
维基百科分类层次结构的转储数据

使用维基百科的转储文件,我想为其类别构建层次结构。我已经下载了主要的转储文件(enwiki-latest-pages-articles)和类别SQL转储文件(enwiki-latest-category)。但是我找不到层次结构信息。 例如,SQL类别转储文件有每个类别的条目,但我找不到它们如...

21得票7回答
如何使用Python 3和Beautiful Soup获取维基百科文章的文本?

我有一个用 Python 3 编写的脚本:response = simple_get("https://en.wikipedia.org/wiki/Mathematics") result = {} result["url"] = url if response is not None: ...

21得票6回答
如何在Python中对维基百科分类进行分组?

对于数据集中的每个概念,我都存储了相应的维基百科类别。例如,考虑以下5个概念及其相应的维基百科类别。 - 高三酰甘油血症: ['类别:脂质代谢紊乱', '类别:与肥胖相关的医学状况'] - 酶抑制剂: ['类别:酶抑制剂', '类别:药物化学', '类别:新陈代谢'] - 旁路手术: ['类...

19得票2回答
我可以使用维基百科的内容吗?

阅读许可证时我总是感到困惑... 我希望实现(说实话已经完成了)一个商业iPad应用程序,其中使用了维基百科的内容。我可以做以下几件事吗? 1. 嵌入硬编码链接,指向维基百科文章并在应用内浏览器中显示它们吗? 2. 实现激进的缓存,镜像部分维基百科内容以使其离线可用吗? 3. 在开发期间手...

18得票2回答
维基百科文章摘要

我发现自己不断地需要学习新的东西。我一直在思考如何加速学习新学科的过程。我想,如果我能编写一个程序来解析维基百科文章并移除除最有价值的信息之外的所有内容,那就很有趣了。 我从维基百科上取得了有关PDF的文章,并提取了前100个句子。我为每个句子评分,根据我认为它的价值给出分数。最后,我创建了...