如何在Python中提取数据时获取Unicode字符串？

Question

如何在Python中提取数据时获取Unicode字符串？

3

我正在尝试从一个字符集为utf-8的越南网站中提取文本。然而，我得到的文本总是Ascii码，并且我找不到一种方法将它们转换为Unicode或者精确地获得网站上的文本。因此，我无法像预期那样将它们保存到文件中。
我知道这是Python中普遍存在的Unicode问题，但我仍然希望有人能够帮助我解决这个问题。谢谢。
我的代码：

import requests, re, io
import simplejson as json
from lxml import html, etree

base = "http://www.amthuc365.vn/cong-thuc/"
page = requests.get(base + "trang-" + str(1) + ".html")
pageTree = html.fromstring(page.text)

links = pageTree.xpath('//ul[contains(@class, "mt30")]/li/a/@href')
names = pageTree.xpath('//h3[@class="title"]/a/text()')
for name in names[:1]:
    print name
    # LÃ m bÃ¡nh oreo nhÃ¢n bÆ¡ Äáºu phá»ng thÆ¡m bÃ¹i

但我需要的是“Làm bánh oreo nhân bơ đậu phộng thơm bùi”
谢谢。

- Huy Do

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- alecxe · Accepted Answer

只需将page.text替换为page.content即可使其工作。

说明请参见此处。

另请参见：