我想知道在Objective-C中是否有任何现有的库或可访问的库可以用来抓取格式类似于此页面的网页。 具体来说,抓取每个日期以及与每个日期相邻的所有文本。如果没有,最好的方法是什么?正则表达式?我听说
我正在寻找是否有其他替代方案来进行抓取,例如XML文件或API。 我确实找到了一个API,但我看到的唯一客户端是其他语言,它们似乎只能向页面发布内容,而不能检索内容。
编辑:因此,我在这些链接中找到了有关API的更多信息: 并且我能够想出此请求,它返回一些HTML编码的文本(格式为XML,但包括页面的文本,例如
NSString
可能已经内置了这些方法。这是真的吗?我正在寻找是否有其他替代方案来进行抓取,例如XML文件或API。 我确实找到了一个API,但我看到的唯一客户端是其他语言,它们似乎只能向页面发布内容,而不能检索内容。
编辑:因此,我在这些链接中找到了有关API的更多信息: 并且我能够想出此请求,它返回一些HTML编码的文本(格式为XML,但包括页面的文本,例如
»a href = 等)。我将继续查阅文档,以查看是否可以使其更好。如果不行,是否有任何关于解析此内容的建议?
编辑2:好的,感谢这个文档页,我能够检索到数据的最简单和最清晰的方法是使用构建的链接,它返回相关部分的原始数据(在维基标记中)。但是,我想我需要解析它,虽然如果真的是这种情况,那应该比整篇文章容易得多。
有没有人对在Objective-C中解析维基标记(如以下内容)有什么建议?
==Events==
* [[710]] – [[Saracen]] invasion of [[Sardinia]].
*[[1275]] – Traditional founding of the city of [[Amsterdam]].
*[[1682]] – [[Philadelphia]], [[Pennsylvania]] is founded.
我想最终得到的是一个类似于NSDictionary
的集合,可以存储日期和相关信息片段。谢谢!