我正在使用python测试Apache Tika REST Api,用于解析HTML文件。除了一个问题,一切正常。 <noscript>
标签内部的内容也被解析为文本,而我的文本中有一些CSS样式内容,这是不希望的。此外,<div style="display:none">
的主体也被提取出来了。是否有一种方法在Tika rest API中黑名单一些HTML标签?
我正在使用python测试Apache Tika REST Api,用于解析HTML文件。除了一个问题,一切正常。 <noscript>
标签内部的内容也被解析为文本,而我的文本中有一些CSS样式内容,这是不希望的。此外,<div style="display:none">
的主体也被提取出来了。是否有一种方法在Tika rest API中黑名单一些HTML标签?
我没有立即的解决方案,但该请求似乎是合理的,请在我们的JIRA上开一个问题供团队讨论:https://issues.apache.org/jira/projects/TIKA/summary