6Â 918Â 417Â 712
根据我的理解,Python中清晰明确地截取该字符串的方式是将该字符串存储在一个名为s
的变量中,然后执行:
s.replace('Â ', '')
那应该就可以了。但当然,它会抱怨文件 blabla.py 中的非 ASCII 字符 '\xc2'
没有编码。
我从来没有完全理解如何在不同的编码之间切换。
这里是代码,它实际上与上面的代码完全相同,但现在它在上下文中。该文件以 UTF-8 格式保存在记事本中,并具有以下标头:
#!/usr/bin/python2.4
# -*- coding: utf-8 -*-
代码:
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
s = soup.find('div', {'id':'main_count'})
#making a print 's' here goes well. it shows 6Â 918Â 417Â 712
s.replace('Â ','')
save_main_count(s)
它只能达到s.replace
...
u
开头。 - SilentGhost