2305得票31回答
406得票16回答
使用JS解析HTML字符串

我想解析一个包含HTML文本的字符串,我想在JavaScript中实现。 我尝试了Pure JavaScript HTML Parser库,但似乎它解析的是当前页面的HTML,而不是从字符串中解析。因为当我尝试下面的代码时,它会改变我的页面标题:var parser = new HTMLtoD...

314得票4回答
如何在JavaScript中从字符串中去除HTML标签?

如何在JavaScript中去除字符串中的HTML标签?

256得票7回答
使用Python解析HTML

我正在寻找一个Python的HTML解析器模块,可以帮助我将标签以Python列表/字典/对象的形式获取。如果我有一个如下形式的文档:<html> <head>Heading</head> <body attr1='val1'> <...

236得票18回答
使用正则表达式解析HTML:为什么不推荐?

在stackoverflow上,似乎每一个使用正则表达式从HTML中获取信息的提问者都会不可避免地得到一个“答案”,该答案说不要使用正则表达式解析HTML。 为什么不呢?我知道有所谓的“真正”的HTML解析器,比如Beautiful Soup,我相信它们很强大和有用,但是如果你只是做一些简单...

209得票3回答
如何使用Java高效解析HTML?

我在工作中需要大量进行HTML解析。目前,我正在使用HtmlUnit无头浏览器进行解析和浏览器自动化。 现在,我希望将这两个任务分开。 我想使用一个轻量级的HTML解析器,因为在HtmlUnit中,首先加载页面,然后获取源代码并解析它需要很长时间。 我想知道哪个HTML解析器可以高效地解析HT...

202得票23回答
正则表达式选取标签之间的所有文本

如何选择两个标签之间的所有文本-例如:页面上所有“<pre>”标签之间的文本。

201得票8回答
当正则表达式模式在字符串中没有匹配时,该怎么办?

我正在尝试使用这个模式匹配类型为hidden的<input>字段: /<input type="hidden" name="([^"]*?)" value="([^"]*?)" />/ 这是一些示例表单数据: <input type="hidden" na...

165得票10回答
如何使用php从html中提取img src、title和alt?

我想创建一个页面,其中列出了我网站上所有图像的标题和替代表示形式。 我已经编写了一个小程序来查找和加载所有HTML文件,但现在我卡在如何从这个HTML中提取src,title和alt。<img src="/image/fluffybunny.jpg" title="Harvey the ...

120得票8回答
如何使用grep、正则表达式或perl提取符合某一模式的字符串

我有一个文件,看起来像这样: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="conte...