如何使用Python从手写的扫描PDF中提取数据？

Question

如何使用Python从手写的扫描PDF中提取数据？

pythonocrpython-tesseracthandwriting-recognition

3

所以我有一些PDF文件，它们是结构化反馈表的扫描副本。表格上有这些复选框和手写笔记的空间。我试图从这些PDF文件中提取数据并将其保存到非结构化CSV文件中。现在，使用 pytesseract，我能够获取印刷文本（首先将PDF转换为图像），但我无法捕获手写内容。有什么方法可以做到这一点吗？我附上一个参考样本表格。

!https://imgur.com/a/2FYqWJf

- PranavM

1

提取是一个问题，识别并保存到csv是另一个更大的问题。通过一些工作，你可以提取文本，但我不知道是否可能识别它。你可以尝试使用谷歌/亚马逊/微软提供的视觉API，看看结果是否可接受。如果不行，我认为识别硬件数据是不可能的。说实话，即使对于人类来说，读取生日和纪念日的文本也很困难。 - undefined

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user11341370 · Accepted Answer

PyTesseract是一个OCR程序。它没有经过训练或设计来识别手写字。所以你有两个选择：1）重新训练它以识别手写字（尽管这会非常耗时和复杂）2）使用另一个专门用于识别手写字而不是印刷文本的库，比如这个：https://learn.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/python-hand-text