我目前正在使用BeautifulSoup解析HTML文件并调用
我尝试使用
编辑:使用
get_text()
, 但好像留下了很多代表空格的Unicode字符\xa0。是否有一种有效的方法可以在Python 2.7中删除所有这些字符并将它们转换为空格?我想更一般化的问题是,是否有一种方法可以去除Unicode格式?我尝试使用
line = line.replace(u'\xa0',' ')
,如另一个线程所建议的那样,但是这会将\xa0替换为u,因此现在到处都是“u”字母。(:))编辑:使用
str.replace(u'\xa0', ' ').encode('utf-8')
似乎解决了问题,但仅使用.encode('utf-8')
而不使用replace()
似乎会导致输出更奇怪的字符,例如\xc2。能否有人解释这个问题?
u''
代替''
。 :-) - jpaughu' '
替换,而不是' '
。原始字符串是Unicode的吗? - pepr