For example the web page is the link:
我需要公司的名称、地址和网站。我尝试了以下方法将html转换为文本:https://www.architecture.com/FindAnArchitect/FAAPractices.aspx?display=50
import nltk
from urllib import urlopen
url = "https://www.architecture.com/FindAnArchitect/FAAPractices.aspx display=50"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)
但它返回了错误:
ImportError: cannot import name 'urlopen
urllib
**,它与Python 2的**urllib
**不同。 - Peter Woodclean_html
没有被实现。请参见这个问题。 - Peter Wood