我需要从一个HTML(XHTML有效)页面中获取一些内容。我使用curl抓取页面并将其存储在内存中。
我尝试过使用PCRE库中的正则表达式来实现,但是我无法找到任何使用C语言进行编写的示例。然后我开始查看HTML解析器,但我没有找到很好的选择。我所能找到的只是一个名为HTMLparser的libxml模块,文档也很简单。
有没有其他替代方案?如果没有,那么你能提供一些我已经找到的例子吗?
我需要从一个HTML(XHTML有效)页面中获取一些内容。我使用curl抓取页面并将其存储在内存中。
我尝试过使用PCRE库中的正则表达式来实现,但是我无法找到任何使用C语言进行编写的示例。然后我开始查看HTML解析器,但我没有找到很好的选择。我所能找到的只是一个名为HTMLparser的libxml模块,文档也很简单。
有没有其他替代方案?如果没有,那么你能提供一些我已经找到的例子吗?
我会使用libhtmltidy和任何xml解析器,例如expat或libxml。这取决于您所需要的功能。
myhtml
的合理继任者。