Apache Tika 排除一些 HTML 标签

6

我正在使用python测试Apache Tika REST Api,用于解析HTML文件。除了一个问题,一切正常。 <noscript> 标签内部的内容也被解析为文本,而我的文本中有一些CSS样式内容,这是不希望的。此外,<div style="display:none"> 的主体也被提取出来了。是否有一种方法在Tika rest API中黑名单一些HTML标签?

1个回答

3

最新版本的tika现在是否已经提供了解决方案?@Tim Allison我也遇到了同样的问题。 - user7552123
看起来不太对劲:https://issues.apache.org/jira/browse/TIKA-2805。尝试联系一下相关人员,看能否引起关注... - Tim Allison

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接