我正在使用BeautifulSoup从网页中抓取数据。我想将网站数据与 .txt 文档中的文本进行比较。然而,我似乎遇到了编码问题。
该网站上有文本“heat oven to 400°”。该文本也在“查看源代码”中以此方式显示(没有html实体)。
使用BeautifulSoup读取该网站:
该网站上有文本“heat oven to 400°”。该文本也在“查看源代码”中以此方式显示(没有html实体)。
使用BeautifulSoup读取该网站:
source = "my url".read()
....
soup = BeautifulSoup(source)
这个文本文档是通过创建一个新的文本文档并将其编码为“UTF-8无BOM”来创建的。然后,我从网站上复制并粘贴了“将烤箱加热到400度”的内容到文本文档中,并保存。
该文本文件被读取为:
f = codecs.open('myfilename', encoding='utf-8')
当我比较这两个字符串时,它们不相等,但我希望它们相等。
为了查看发生了什么:在Eclipse中,我拆分了这两个文本,并在调试模式下查看变量,发现BeautifulSoup的度符号显示为\xc2 \xb0。而文本文档中的度符号只显示为\xb0。
为什么会这样,我该如何解决?我遇到了许多特殊字符的问题,因此需要一个通用解决方案。另外,我将从几个网站复制粘贴数据到文本文档中。