我曾使用3种语言进行网页抓取 - Ruby,PHP和Python,但是实际上没有一种似乎完美地完成了此任务。
Ruby拥有出色的Mechanize和XML解析库,但电子表格支持非常差。
PHP拥有出色的电子表格和HTML解析库,但它没有WWW:Mechanize的等效物。
Python的Mechanize库非常差。我在使用过程中遇到了许多问题,仍然无法解决。但其电子表格库相对较好,因为它无法创建XLSX文件。
有没有适用于网页抓取的完美工具呢?
PS:我正在Windows平台上工作。
我曾使用3种语言进行网页抓取 - Ruby,PHP和Python,但是实际上没有一种似乎完美地完成了此任务。
Ruby拥有出色的Mechanize和XML解析库,但电子表格支持非常差。
PHP拥有出色的电子表格和HTML解析库,但它没有WWW:Mechanize的等效物。
Python的Mechanize库非常差。我在使用过程中遇到了许多问题,仍然无法解决。但其电子表格库相对较好,因为它无法创建XLSX文件。
有没有适用于网页抓取的完美工具呢?
PS:我正在Windows平台上工作。
简短的回答是否定的。
问题在于HTML是一个庞大的格式家族,只有较新的变体是一致的(并且基于XML)。如果您要使用PHP,则建议使用DOM解析器,因为它可以处理许多不符合良好形式的XML的HTML。
从您的帖子中可以看出:
1)需要从网络捕获内容,并要求进行复杂的交互管理
2)将数据解析为一致的机器可读格式
3)将数据写入电子表格
这肯定是三个单独的问题 - 如果没有一种语言满足所有3个要求,那么为什么不使用最适合工作的工具,并只关注数据的合适的中间格式/介质呢?
C.