AWS Textract对于OCR处理的PDF页面数量是否有限制?

4
我正在使用AWS Textract对基于图像的PDF进行OCR处理。每个PDF都有60多页,但是当我尝试对PDF文件进行OCR处理时,它只针对每个文件的前4页进行处理。请问AWS extract对PDF文件的页面数量是否有限制?我在这里找到了文档https://docs.aws.amazon.com/textract/latest/dg/limits.html,但其中并没有提及页面数量的限制!!请问是否有人知道PDF页面数量是否有限制?如果有,我该如何对整个60+页的文件进行OCR处理呢?
2个回答

2

我认为你的问题与textract的批处理响应有关。您需要查看json输出中是否填充了“NextToken”键,如果是,则必须使用该令牌进行另一个请求。


1
对于异步操作,JPEG和PNG文件在内存中的限制为10 MB。PDF和TIFF文件在内存中的限制为500 MB。PDF和TIFF文件的页面数量限制为3,000页。
你是否在回应中得到了四个文件来处理60多页的文档?很可能所有60多页的回应都包含在这四个输出文件中。请注意,Textract异步作业的回应以每个文件1000个块的格式保存,而不是每个文件一个页面。
供参考:
1. 块格式:https://docs.aws.amazon.com/textract/latest/dg/API_Block.html 2. Amazon Textract设置配额的文档(限制是不可配置的):https://docs.aws.amazon.com/textract/latest/dg/limits-document.html

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接