如何编写一个Python脚本来搜索网站HTML以查找匹配的链接

Question

如何编写一个Python脚本来搜索网站HTML以查找匹配的链接

pythonscrape

4

我对Python不太熟悉，但需要编写一个脚本来执行许多功能。基本上，我仍需要的模块是如何检查网站代码是否与预先提供的链接匹配。

- GeminiDNK

3个回答

3

通常情况下，你可以在Python中使用urllib、urllib2（htmllib等）来编写Web程序。你也可以使用mechanize、curl等工具。然后，为了处理HTML并获取链接，你需要使用像BeautifulSoup这样的解析器。

- ghostdog74

0

尝试使用Scrapy，最全面的网络抓取框架。

http://scrapy.org

- Frederic Bazin

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Nick Presta · Accepted Answer

匹配链接的是什么？它们的HREF属性？还是链接显示文本？也许可以这样表述：

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

这将获取 somesite.com 的HTML内容，然后使用BeautifulSoup解析它，仅查找HREF属性以"test"开头的链接。然后它构建了一个这些链接的列表并将它们打印出来。

您可以根据文档修改此内容以执行任何操作。