33得票4回答
解析HTML以获取元素内的文本

我需要将两个元素内的文本提取出来并组成一个字符串:source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>""" >>> text ...

32得票4回答
在Ruby中解析HTML文档的方法?

像 PHP 中的 DOMDocument 类一样,RUBY(即核心 RUBY)中是否有类来解析 HTML 文档并获取节点元素的值。

28得票3回答
如何将使用Jsoup(Java HTML解析器)创建的文档转换为字符串

我有一个使用jsoup创建的文档,看起来像这样Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 如何将那个 doc 转换为字符串。

13得票3回答
使用脚本扩展HTML文件并覆盖/扩展某些部分标签。

我想要使用开源(客户端)来扩展HTML,例如我需要向其中添加脚本或更改一些src值并添加其他标签等。 我找到了以下内容:https://www.npmjs.com/package/gulp-html-extend 但我不确定是否可以在客户端中使用它(我们的项目中没有使用gulp)。这里的客...

9得票1回答
Python 3.4 的 HTMLParser

我有一些用 Python (2.7) 写的代码,使用了 HTMLParser。 我目前正在使用 Python 3.4。 我找不到 HTMLParser 下载模块。 如果存在的话,有人可以分享链接吗? 如果没有,我该怎么办?

8得票1回答
处理htmlParse错误(无法加载HTTP资源)

我正在尝试网页抓取。然而,有时我的循环无法工作,因为解析器“无法加载HTTP资源”。问题是页面在我的浏览器中无法加载,所以这不是代码的问题。 但是,每当我遇到错误,都要创建一个异常并重新启动进程会让人感到非常烦人。我想知道是否有一种方法可以设置if条件。我考虑了一些东西:如果出现错误,则在下...

7得票3回答
PHP DOMDocument parentNode->replaceChild 导致 foreach 遍历跳过下一个项目。

我正在使用DOMDocument解析变量$content中的HTML,将所有iframe替换为图片。但是foreach仅替换奇数个iframe。我已经将foreach中的所有代码都删除,并发现引起问题的代码片段是:'$iframe->parentNode->replaceChild...

7得票3回答
用Ruby编写的将外部CSS转换为内联CSS的工具?

我正在使用GoogleDocs,并发现它的CSS支持非常原始。如果您上传MSWord .doc或HTML文件并将其导出为HTML,则所有样式都会被应用为内联样式。虽然HTML文件中有一个样式块,但是当您将HTML文件上传回Google Docs时,它不会应用任何非内联样式。 因此,我想:“也...