我已经编写了一段代码,它可以从段落中提取内容。
我不想要这个。 我们能否添加一些条件,以便在使用get_text()方法时忽略标签?
from bs4 import BeautifulSoup
from bs4 import BeautifulSoup, NavigableString
import re
soup = BeautifulSoup(open('MUFC.html'))
a_tag = soup.find_all('p')
#print(a_tag)
for x in a_tag:
print(x.get_text())
但是有些 script 标签在 p 标签内部
类似这样的内容
<p>
<script>
.....
</script>
</p>
我不想要这个。 我们能否添加一些条件,以便在使用get_text()方法时忽略标签?