如何使用Python从手写的扫描PDF中提取数据?

3
所以我有一些PDF文件,它们是结构化反馈表的扫描副本。表格上有这些复选框和手写笔记的空间。我试图从这些PDF文件中提取数据并将其保存到非结构化CSV文件中。 现在,使用 pytesseract,我能够获取印刷文本(首先将PDF转换为图像),但我无法捕获手写内容。有什么方法可以做到这一点吗? 我附上一个参考样本表格。

!https://imgur.com/a/2FYqWJf


1
提取是一个问题,识别并保存到csv是另一个更大的问题。通过一些工作,你可以提取文本,但我不知道是否可能识别它。 你可以尝试使用谷歌/亚马逊/微软提供的视觉API,看看结果是否可接受。如果不行,我认为识别硬件数据是不可能的。说实话,即使对于人类来说,读取生日和纪念日的文本也很困难。 - undefined
1个回答

1

使用预训练库从图像中提取手写文本是困难的,因为每个人的手写风格都不同。在这种情况下,我们需要训练自己的模型并使用它来提取文本。 参考链接:https://towardsdatascience.com/build-a-handwritten-text-recognition-system-using-tensorflow-2326a3487cd5 - undefined

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接