我正在从网站上爬取图片的src、标题、价格等信息,但是它们的src属性返回的是base64字符串,而不是图片链接。当我将所有这些爬取到的数据附加到uri中时,会显示出长URI错误。如何解决这个问题?
在上面的示例中,如果您解码字符串(减去An HTML fragment embedding a picture of small red dot:
<img src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAUA AAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO 9TXL0Y4OHwAAAABJRU5ErkJggg==" alt="Red dot" />
data:image/png,base64,
部分),您将获得PNG图像的数据,您可以将其写入磁盘作为文件。以下是相关链接:
data:image/png,base64,
的部分,然后使用base64解码函数。在PHP中,它是base64_decode
,在Javascript中它是atob
。 - Dal Hundal