Tika - 如何从PDF中提取文本:下划线、高亮、删除线

4
我正在使用Tika*解析PDF文件。检索文档的文本没有问题,但我不知道如何提取以下内容:
  • 下划线
  • 高亮
  • 删除线
Adobe Writer提供了不同的文本编辑选项,但我无法找到它们的“隐藏”位置。
是否有一种解决方法来提取这些元数据信息?(下划线、高亮...)
您是否知道Tika能否提取此数据?
*p.s:http://tika.apache.org/
1个回答

3

哇,四年等待一个答案真是太长了,我猜你现在已经找到了解决方法。无论如何,为了那些会访问这个链接的人着想,答案是肯定的。Apache Tika不仅可以提取文档中的文本,还可以提取格式(例如:粗体、斜体)。这是我的情景:

    //inputStream is the document you wish to parse from.

    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();

    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

打印语句会打印出您文档的XML。稍加整理XML(实际上是HTML标记),您将得到像 < b >text< /b>用于粗体文本和 < i >text < / i > 用于斜体文本等标记。然后你可以找到一种方法来呈现它。祝你好运。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接