PHP DOMDocument loadHTML使用UTF-8编码？

Question

PHP DOMDocument loadHTML使用UTF-8编码？

5

考虑这个例子，test.php：

<?php
$mystr = "<p>Hello, με काचं  ça øy jeść</p>";
var_dump($mystr);
$domdoc = new DOMDocument('1.0', 'utf-8'); //DOMDocument();
$domdoc->loadHTML($mystr); // already here corrupt UTF-8?
var_dump($domdoc);
?>

如果我在PHP 5.5.9（cli）下运行此代码，终端会输出：

$ php test.php 
string(50) "<p>Hello, με काचं  ça øy jeść</p>"
object(DOMDocument)#1 (34) {
  ["doctype"]=>
  string(22) "(object value omitted)"
...
  ["actualEncoding"]=>
  NULL
  ["encoding"]=>
  NULL
  ["xmlEncoding"]=>
  NULL
...
  ["textContent"]=>
  string(70) "Hello, Î¼Îµ ï»¿à¤à¤¾à¤à¤  Ã§a Ã¸y jeÅÄ"
}

显然，原始字符串是正确的UTF-8格式，但DOMDocument的 textContent 编码不正确。

那么，我该如何在DOMDocument中以正确的UTF-8格式获取内容呢？

- sdaau

1

我不确定如果以那种方式将文本放入其中，这个字符串是否真的是utf8。 - ave4496

谢谢@aleksv - 你有什么建议可以让这个字符串变成utf8吗？ - sdaau

1

也许这可以帮助：https://dev59.com/d3I95IYBdhLWcg3wzhZ9 - ave4496

谢谢，@aleksv - 在遵循那个链接后，我最终找到了解决问题的方法 http://php.net/manual/en/domdocument.loadhtml.php#95251... - sdaau

2个回答

1

我想发布经过修复的原始代码，这些修复对我有效：

<?php
$mystr = "<p>Hello, με काचं  ça øy jeść</p>";
var_dump($mystr);
$domdoc = new DOMDocument('1.0', 'UTF-8'); //DOMDocument();
$domdoc->substituteEntities = true; // no effect if hack is done
//~ $domdoc->actualEncoding = 'UTF-8'; // Cannot write property
$domdoc->encoding = 'UTF-8'; // no effect
//~ $domdoc->xmlEncoding = 'UTF-8'; // Cannot write property
//~ $domdoc->loadHTML($mystr); // already here corrupt UTF-8?
//~ $domdoc->loadHTML(utf8_decode($mystr)); // this gets to <p>Hello, ?? ?????  ça øy je??</p>, so not all
//~ $domdoc->loadHTML( mb_convert_encoding($mystr, 'utf-8', mb_detect_encoding($mystr)) ); // no dice
$domdoc->loadHTML('<?xml encoding="UTF-8">' . $mystr); // hack, http://php.net/manual/en/domdocument.loadhtml.php#95251
// dirty fix
foreach ($domdoc->childNodes as $item)
    if ($item->nodeType == XML_PI_NODE)
        $domdoc->removeChild($item); // remove hack
$domdoc->encoding = 'UTF-8'; // insert proper (sets all three)
var_dump($domdoc);
print $domdoc->saveXML(); // without ->encoding = 'UTF-8': Hello, &#x3BC;&#x3B5; &#xFEFF;&#x915;&#x93E;&#x91A;&#x902; else OK
//~ print mb_convert_encoding($domdoc->saveXML(), 'UTF-8', 'HTML-ENTITIES'); // if without ->encoding = 'UTF-8', this is then OK: <p>Hello, με काचं  ça øy jeść</p>
?>

这段文本的英译为：“这将输出：”。

$ php test.php 
string(50) "<p>Hello, με काचं  ça øy jeść</p>"
object(DOMDocument)#1 (34) {
  ["doctype"]=>
  string(22) "(object value omitted)"
...
  ["actualEncoding"]=>
  string(5) "UTF-8"
  ["encoding"]=>
  string(5) "UTF-8"
  ["xmlEncoding"]=>
  string(5) "UTF-8"
...
  ["textContent"]=>
  string(43) "Hello, με काचं  ça øy jeść"
}
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><p>Hello, με काचं  ça øy jeść</p></body></html>

"...现在一切都很好：）"

- sdaau

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user3942918 · Accepted Answer

DOM扩展是基于libxml2构建的，其HTML解析器是为HTML 4制作的 - 默认编码为ISO-8859-1。除非遇到适当的meta标签或XML声明，否则loadHTML()将假定内容为ISO-8859-1。

在创建DOMDocument时指定编码不影响解析器的工作 - 加载HTML（或XML）会替换您在构造函数中指定的xml版本和编码。

解决方法：

首先使用mb_convert_encoding()将ASCII范围以上的任何内容转换为其html实体等效项。

$domdoc->loadHTML(mb_convert_encoding($mystr, 'HTML-ENTITIES', 'UTF-8'));

或者在元标签或XML声明中修改编码为UTF-8。

$domdoc->loadHTML('<meta http-equiv="Content-Type" content="charset=utf-8" />' . $mystr);

$domdoc->loadHTML('<?xml encoding="UTF-8">' . $mystr);