我有以下内容:
html =
'''<div class=“file-one”>
<a href=“/file-one/additional” class=“file-link">
<h3 class=“file-name”>File One</h3>
</a>
<div class=“location”>
Down
</div>
</div>'''
我想获得仅为href
的文本,即/file-one/additional
。因此我这样做:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
link_text = “”
for a in soup.find_all(‘a’, href=True, text=True):
link_text = a[‘href’]
print “Link: “ + link_text
但它只打印了一个空白,什么也没有。只有Link:
。因此,我在另一个具有不同HTML的站点上进行了测试,它可以正常工作。
我做错了什么?还是有可能站点被故意编程为不返回href
吗?
提前感谢,我一定会投票/接受答案!
text=True
,你的代码对我来说可以工作。 - chickity china chinese chickentext=True
是什么意思?我以为它会返回文本形式。 - user3259472