我正在解析许多网站,所有工作都很顺利,我也在读取字符集声明以转换编码。现在我遇到了一个问题,与http://celleheute.de/sonntagsfuhrung-3/有关。
HTML meta标签显示内容采用ISO-8859-2编码,但HTTP头却显示UTF-8编码。实际上,内容是UTF编码的,因此当我的解析器尝试将内容转换为ISO时,会破坏一些字符。
现在我的问题是,我应该选择哪个声明?我应该忽略meta标签吗?如果我可以在HTTP头中找到声明,还是相反?大多数Web浏览器会怎么做?
HTML meta标签显示内容采用ISO-8859-2编码,但HTTP头却显示UTF-8编码。实际上,内容是UTF编码的,因此当我的解析器尝试将内容转换为ISO时,会破坏一些字符。
现在我的问题是,我应该选择哪个声明?我应该忽略meta标签吗?如果我可以在HTTP头中找到声明,还是相反?大多数Web浏览器会怎么做?