Tika - 如何从PDF中提取文本：下划线、高亮、删除线

Question

Tika - 如何从PDF中提取文本：下划线、高亮、删除线

pdftextmarkupapache-tika

4

我正在使用Tika*解析PDF文件。检索文档的文本没有问题，但我不知道如何提取以下内容：

下划线
高亮
删除线

Adobe Writer提供了不同的文本编辑选项，但我无法找到它们的“隐藏”位置。

是否有一种解决方法来提取这些元数据信息？（下划线、高亮...）

您是否知道Tika能否提取此数据？

*p.s：http://tika.apache.org/

- Bronn

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jaletechs · Accepted Answer

哇，四年等待一个答案真是太长了，我猜你现在已经找到了解决方法。无论如何，为了那些会访问这个链接的人着想，答案是肯定的。Apache Tika不仅可以提取文档中的文本，还可以提取格式（例如：粗体、斜体）。这是我的情景：

    //inputStream is the document you wish to parse from.

    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();

    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

打印语句会打印出您文档的XML。稍加整理XML（实际上是HTML标记），您将得到像 < b >text< /b>用于粗体文本和 < i >text < / i > 用于斜体文本等标记。然后你可以找到一种方法来呈现它。祝你好运。