AWS Textract对于OCR处理的PDF页面数量是否有限制？

Question

AWS Textract对于OCR处理的PDF页面数量是否有限制？

4

我正在使用AWS Textract对基于图像的PDF进行OCR处理。每个PDF都有60多页，但是当我尝试对PDF文件进行OCR处理时，它只针对每个文件的前4页进行处理。请问AWS extract对PDF文件的页面数量是否有限制？我在这里找到了文档https://docs.aws.amazon.com/textract/latest/dg/limits.html，但其中并没有提及页面数量的限制！！请问是否有人知道PDF页面数量是否有限制？如果有，我该如何对整个60+页的文件进行OCR处理呢？

- asmgx

2个回答

1

对于异步操作，JPEG和PNG文件在内存中的限制为10 MB。PDF和TIFF文件在内存中的限制为500 MB。PDF和TIFF文件的页面数量限制为3,000页。

你是否在回应中得到了四个文件来处理60多页的文档？很可能所有60多页的回应都包含在这四个输出文件中。请注意，Textract异步作业的回应以每个文件1000个块的格式保存，而不是每个文件一个页面。

供参考：

1. 块格式：https://docs.aws.amazon.com/textract/latest/dg/API_Block.html 2. Amazon Textract设置配额的文档（限制是不可配置的）：https://docs.aws.amazon.com/textract/latest/dg/limits-document.html

- Rohan Kumar

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alessio · Accepted Answer

我认为你的问题与textract的批处理响应有关。您需要查看json输出中是否填充了“NextToken”键，如果是，则必须使用该令牌进行另一个请求。