我能否使用XML解析器来解析HTML文件?
为什么不能这样做呢?我知道XML用于存储数据,而HTML用于显示数据。但从语法角度来看,它们几乎相同。
预期的用途是制作一个HTML解析器,该解析器是网络爬虫应用程序的一部分。
我能否使用XML解析器来解析HTML文件?
为什么不能这样做呢?我知道XML用于存储数据,而HTML用于显示数据。但从语法角度来看,它们几乎相同。
预期的用途是制作一个HTML解析器,该解析器是网络爬虫应用程序的一部分。
<br>
、<meta>
、<link>
和<img>
(也称为void元素)<p>
、<dt>
、<li>
(它们的结束标签可以被implied)<
”字符的元素,例如style、textarea、title、script;<script> if (a < b) … </script>
,<title>Using the "<" operator</title>
<meta
charset=utf-8
>
<input
disabled
>
如果您要创建Web爬虫应用程序,您应该绝对使用HTML解析器,最好是符合HTML标准中的解析要求的HTML解析器。(HTML标准)。预期目的是制作一个Web爬虫应用程序的HTML解析器。
语法上它们几乎是完全相同的
计算机很挑剔。 "几乎相同"是不够的。HTML允许一些XML不允许的内容,因此XML解析器会拒绝(虽然不是全部)HTML文档。
此外,有一个不同的质量文化。对于HTML,解析器的文化是“如果可能的话,尽量去处理输入”。对于XML,文化是“如果有错误,退回修复或替换”。