如何编写一个Python脚本来搜索网站HTML以查找匹配的链接

4

我对Python不太熟悉,但需要编写一个脚本来执行许多功能。基本上,我仍需要的模块是如何检查网站代码是否与预先提供的链接匹配。

3个回答

6
匹配链接的是什么?它们的HREF属性?还是链接显示文本? 也许可以这样表述:
from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

这将获取 somesite.com 的HTML内容,然后使用BeautifulSoup解析它,仅查找HREF属性以"test"开头的链接。然后它构建了一个这些链接的列表并将它们打印出来。

您可以根据文档修改此内容以执行任何操作。


3
通常情况下,你可以在Python中使用urlliburllib2(htmllib等)来编写Web程序。你也可以使用mechanizecurl等工具。然后,为了处理HTML并获取链接,你需要使用像BeautifulSoup这样的解析器。

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接