我正在使用Ruby(1.9)编写网络爬虫,从许多随机站点消耗大量的HTML。
在尝试提取链接时,我决定仅使用.scan(/href="(.*?)"/i)
而不是nokogiri/hpricot(可以大大加快速度)。问题是我现在收到了很多"invalid byte sequence in UTF-8
"错误。
据我所知,net/http
库没有任何特定于编码的选项,因此传入的数据基本上未被正确标记。
实际处理这些传入数据的最佳方法是什么? 我尝试使用将replace和invalid选项设置的.encode
,但是目前没有成功...
'U*'
可以撤销'C*'
吗? - Jordan Feldstein