可能与此内容重复:
使用 PHP 解析 HTML 的最佳方法
我了解到应该使用像php domdocument (http://docs.php.net/manual/en/domdocument.loadhtml.php) 或 tagsoup 这样的html解析器。
我如何使用php domdocument提取特定标签之间的文本,例如获取h1、h2、h3、p、table之间的文本?似乎我只能使用getelementbytagname来做到这一点,而且只能针对一个标签。
是否有更好的html解析器可以完成这个任务?或者我应该如何遍历php domdocument?
$html = file_get_contents("http://yahoo.com");
),但总是失败并给出可怕的domdocument.loadhtml</a>]: htmlParseEntityRef: expecting ';' in Entity
我想我得去检查tagsoup或simplehtmldom了。:) 算法看起来不错。 - giorgio79