从HTML中提取文本的正则表达式

22

我希望从一个常规的HTML页面中提取所有文本(无论是否显示)。

我想要 删除

  • 任何HTML标签
  • 任何JavaScript
  • 任何CSS样式

是否有一个或多个正则表达式可以实现这一点?


请参考 https://dev59.com/tnVD5IYBdhLWcg3wQZQg。 - S.Lott
小心Zalgo。 - Kelly S. French
11个回答

1

我相信你可以轻松完成

document.body.innerText

这将返回文档中所有文本节点的内容,无论是否可见。

[编辑(olliej):叹气算了,这只在Safari和IE中有效,我懒得下载Firefox Nightly来查看它是否存在于trunk中 :-/ ]


不好意思,在FF3中未定义。 - Chris Noe
textContent 是一个标准等价。 - Kornel

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接