我正在使用Beautiful Soup编写网络爬虫,并且有以下的代码:
print soup.originalEncoding
#self.addtoindex(page, soup)
links=soup('a')
for link in links:
if('href' in dict(link.attrs)):
link['href'].replace('..', '')
url=urljoin(page, link['href'])
if url.find("'") != -1:
continue
url = url.split('?')[0]
url = url.split('#')[0]
if url[0:4] == 'http':
newpages.add(url)
pages = newpages
link['href'].replace('..', '')
的作用是修复以../开头的链接,例如../contact/orderform.aspx、../contact/requestconsult.aspx等。但它似乎没有生效,这些链接仍然以".."开头。我是否遗漏了什么?