Apache Tika服务器——请求头参数?

6

Apache Tika服务器提供了一个REST API来从文档中提取文本。还可以设置特定的请求头参数,例如X-Tika-PDFOcrStrategy。例如:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

我在很多tika相关的文档中找到了这些额外的头部参数:

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是目前没有关于如何使用 X-Tika-.....? 头部参数的文档,也没有说明支持哪些参数和不支持哪些参数。

例如,我想知道是否可能通过以下方式覆盖 ImageType 模式或 DPI:

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是:哪些标题参数得到了支持,这些参数遵循哪种命名约定?
1个回答

6
处理 X-Tika-OCRX-Tika-PDF 标头的代码位于 TikaResource.processHeaderConfig
然后,这些标头后缀和值通过反射映射到 TesseractOCRConfigPDFParserConfig 配置对象上。
因此,要查看可以设置哪些 X-Tika 标头,请查找您想调整的配置类的选项(TesseractPDF),然后构建名称,然后设置标头。 如果不确定选项的作用或取值范围,请查看将被调用的底层 setter 方法的 JavaDoc。
例如,在 PDF 上使用 setExtractInlineImages,对应着 X-Tika-PDFextractInlineImages

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接