PHP Dom 删除元素并保留内容

7
我是一名有帮助的助手,可以为您翻译文本。以下是需要翻译的内容:

我正在尝试根据ID标签删除某些链接,但保留链接的内容。例如,我想将

Some text goes <a href="http://www.domain.tdl/" id="remove">here</a>

Some text goes here

我尝试使用以下内容。
$dom = new DOMDocument;
$dom->loadHtml(mb_convert_encoding($html, 'HTML-ENTITIES', "UTF-8"));
$xp = new DOMXPath($dom);

foreach($xp->query('//a[contains(@id="remove")]') as $oldNode) {
$revised = strip_tags($oldNode);
}

$revised = mb_substr($dom->saveXML($xp->query('//body')->item(0)), 6, -7, "UTF-8");
echo $revised;

粗略地从这里获取,但它只是返回$html的相同内容。你有什么想法如何实现这个?

你在这里没有修改你的文档,所以它输出相同的内容。你提供的例子调用了DOM对象上的replaceChild方法,而你只是创建了一个变量,稍后会用saveXML的输出进行覆盖。 - German Rumm
好问题,+1。请查看我的答案,其中包含一个单一的XPath表达式解决方案,可以精确选择所需节点。 :) - Dimitre Novatchev
3个回答

16

这是我为此编写的函数:

function DOMRemove(DOMNode $from) {
    $sibling = $from->firstChild;
    do {
        $next = $sibling->nextSibling;
        $from->parentNode->insertBefore($sibling, $from);
    } while ($sibling = $next);
    $from->parentNode->removeChild($from);    
}
所以这样做:
$dom->loadHTML('Hello <a href="foo"><span>World</span></a>');
$a = $dom->getElementsByTagName('a')->item(0); // get first
DOMRemove($a);

应该给你:

Hello <span>World</span>

要获取具有特定ID的节点,请使用XPath:

$xpath = new DOMXpath($dom);
$node = $xpath->query('//a[@id="something"]')->item(0); // get first
DOMRemove($node);

我看了你之前发布的另一篇帖子中的代码,但是a)我遇到了一个错误“致命错误:在非对象上调用成员函数insertBefore()”和b)我该如何修改它以仅删除具有特定ID的a元素? - Jack
两个问题:我该如何输出修改后的数据?当我使用你给出的特定ID示例时,我得到了与之前相同的错误。 - Jack
@Jack:使用[DOMDocument :: saveHTML](http://php.net/domdocument.savehtml)进行输出。至于错误,你更新了代码吗?现在这个对我来说可以正常工作了。 - netcoder
你是正确的。新代码有些问题。我在请求不存在的内容。稍微修改一下就可以实现需要的功能了。非常感谢你! - Jack
请帮忙回答这个问题:http://stackoverflow.com/questions/24713728/domdocument-and-delete-parent-tag?noredirect=1#comment38329661_24713728 - user1954544
显示剩余2条评论

2
一个类似于@netcoder答案的方法,但使用不同的循环结构和DOMElement方法。
$html = '<html><body>This <a href="http://www.domain.tdl/" id="remove">link</a> was removed.</body></html>';
$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
foreach ($xpath->query('//a[@id="remove"]') as $link) {
  // Move all link tag content to its parent node just before it.
  while($link->hasChildNodes()) {
    $child = $link->removeChild($link->firstChild);
    $link->parentNode->insertBefore($child, $link);
  }
  // Remove the link tag.
  $link->parentNode->removeChild($link);
}
$html = $dom->saveXML();

$child = $link->removeChild($link->firstChild); 可以简写为 $child = $link->firstChild; 吗? - myol

1

使用方法:

 //a[@id='remove']/node() 
| 
 //*[a[@id='remove']]/node()[not(self::a[@id=''remove])]

这将选择任何具有属性 id 值为 "remove"a 元素的所有子元素,以及该 a 元素之前和之后的所有兄弟元素,但排除那些自身也是具有属性 id 值为 "remove" 的另一个 a 元素。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接