Apache Tika服务器——请求头参数？

Question

Apache Tika服务器——请求头参数？

6

Apache Tika服务器提供了一个REST API来从文档中提取文本。还可以设置特定的请求头参数，例如X-Tika-PDFOcrStrategy。例如:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

我在很多tika相关的文档中找到了这些额外的头部参数：

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是目前没有关于如何使用 X-Tika-.....? 头部参数的文档，也没有说明支持哪些参数和不支持哪些参数。

例如，我想知道是否可能通过以下方式覆盖 ImageType 模式或 DPI：

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是：哪些标题参数得到了支持，这些参数遵循哪种命名约定？

- Ralph

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gagravarr · Accepted Answer

处理 X-Tika-OCR 和 X-Tika-PDF 标头的代码位于 TikaResource.processHeaderConfig。

然后，这些标头后缀和值通过反射映射到 TesseractOCRConfig 和 PDFParserConfig 配置对象上。

因此，要查看可以设置哪些 X-Tika 标头，请查找您想调整的配置类的选项（Tesseract 或 PDF），然后构建名称，然后设置标头。如果不确定选项的作用或取值范围，请查看将被调用的底层 setter 方法的 JavaDoc。

例如，在 PDF 上使用 setExtractInlineImages，对应着 X-Tika-PDFextractInlineImages。