我在这里有些困惑。我有这段代码,可以将文本中的html元素反转义并编码成utf8。
import HTMLParser
def clean_text(text):
htmlparser = HTMLParser.HTMLParser()
return htmlparser.unescape(
' '.join(text.replace('\n', '').split())
).replace(';', ',').encode('utf-8').strip()
我正在使用mysql(天啊,救救我吧!)
这段代码在两个项目中运行。在第一个项目中,代码正常工作,没有问题。在另一个项目中,字符串会被保存成这样:
Die Verbindungen zwischen Dinosauriern und Vögeln immer stärker
应该是这样的
Die Verbindungen zwischen Dinosauriern und Vögeln immer stärker
我在两个项目中都使用了django 1.7和python 2.7.9。
我错过了什么吗?mysql的排序规则是utf8_general_ci,字符集是utf8。在设置中,两个mysql数据库都是相同的。
如果有人能帮我调试这个问题,那就太棒了...如果能解决,我会给他一个温暖的拥抱和亲吻。
clean_text
уџёУЙЊтЄ║Тў»unicode
У┐ўТў»bytes
/str
№╝Ъ - bgusachencode
)。 - bgusach