我正在尝试从词典网站下载一些内容,例如http://dictionary.reference.com/browse/apple?s=t
问题在于原始段落中有许多波浪线、反向字母等字符,因此当我读取本地文件时,会得到那些有趣的转义字符,如\x85、\xa7、\x8d等。
我的问题是,是否有任何方法可以将所有这些转义字符转换为它们各自的UTF-8字符,例如如果有一个'à',如何将其转换为标准的'a'?
Python调用代码:
import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)
我在Windows 7系统上使用wget-1.11.4-1(请勿谴责我,Linux用户,这是客户的要求),并且wget exe文件是由Python 2.6脚本文件触发的。