以下是我的代码。它尝试获取HTML中图像标签内图像的src。
问题在于当我输入类似以下内容时:
import re
for text in open('site.html'):
matches = re.findall(r'\ssrc="([^"]+)"', text)
matches = ' '.join(matches)
print(matches)
问题在于当我输入类似以下内容时:
<img src="asdfasdf">
它可以工作,但当我放入整个HTML页面时,它什么都不返回。为什么会这样?我该如何解决?
Site.html只是标准格式的网站HTML代码。我希望它忽略一切内容,只打印图像的源代码。如果您想查看site.html中的内容,请转到基本的HTML网页并复制所有源代码。
site.html
的代码吗?至少一部分就好 :) - TerryA