Apache Tika 排除一些 HTML 标签

Question

Apache Tika 排除一些 HTML 标签

6

我正在使用python测试Apache Tika REST Api，用于解析HTML文件。除了一个问题，一切正常。 <noscript> 标签内部的内容也被解析为文本，而我的文本中有一些CSS样式内容，这是不希望的。此外，<div style="display:none"> 的主体也被提取出来了。是否有一种方法在Tika rest API中黑名单一些HTML标签？

- Bociek

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tim Allison · Accepted Answer

我没有立即的解决方案，但该请求似乎是合理的，请在我们的JIRA上开一个问题供团队讨论：https://issues.apache.org/jira/projects/TIKA/summary