将“unknown-8bit”字符集转换为UTF-8

15
我正在帮助一个朋友为一个老网站添加内容,该网站似乎是用FrontPage编写的。然而,我有一个使用“unknown-8bit”字符集编码的html文档。我正在使用的Brackets.io只支持UTF-8,因此我无法打开并重新保存到正确的编码格式。
我该如何将这个文件转换为UTF-8,以便在Brackets.io中使用?
我正在使用OS X 10.10 Yosemite,所以我的选择比在Windows上更受限制(记事本++跃入脑海)。
在谷歌上搜索后,我尝试了终端中的以下操作,但“unknown-8bit”不受支持。
iconv -f unknown-8bit -t utf-8 filename.html > newfilename.html

4
"unknown-8it" 并不是一种编码方式,而是表示编码探测器无法确定的一种情况:它可以确定这是一种 8 位编码(几乎所有编码都是 8 位的),但缺乏指示来确定具体是哪种编码。建议尝试其他的编码探测器。你甚至可以使用浏览器并更改编码方式直到显示正确为止。 - Deduplicator
2个回答

17

您可以使用encachardet,但enca可能会更成功。

如果您知道文档所写的语言,就可以猜测编码并尝试转换直到获得正确的结果:

  • 英语、法语、德语、西班牙语等——通常为Windows-1252

  • 俄语、乌克兰语等——通常为Windows-1251

  • 波兰语、捷克语、匈牙利语等——通常为Windows-1250或ISO-8859-2

  • 日语——通常为Shift-JIS

等等。


1
谢谢,这对我很有帮助!该文档的语言是瑞典语,因此我尝试使用“ISO-8859-1”。它成功地将文档转换为UTF-8,但是它错误地转换了瑞典字符。手动编辑比尝试找到正确的原始编码更快。 - Gamut

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接