我有一个XML文件,其中包含编码为&#xxx;的特殊字符。只要我将这些字符输出到浏览器中,就可以正常工作,因为它们是HTML编码(某种程度上)。
但是我需要使用simplexml_load_string
读取XML文件,这会导致某些字符出现乱码,因为它们在扩展ASCII表中。
例如:
š
转换为š-但当我尝试使用html_entity_decode时,我得到一个空字符。
我尝试了几乎所有方法,从iconv
到mb_decode_numericentity
,但都没有成功。
如何将那些&#xxx;转换为真正的字符?
[编辑]
我发现这个表格http://www.ascii-code.com声称š
是使用ISO-8859-1的扩展ASCII字符
我很困惑...
preg_replace_callback
函数或类似的函数来解码这些特定的代码点。 - deceze