19得票1回答
预处理低质量扫描的手写数字

我有几千个PDF文件,包含从数字化纸质表单中提取出的黑白图像(1位)。我正在尝试OCR一些字段,但有时书写太模糊: 我刚刚学习了形态学变换。它们真的很酷!我感觉自己在滥用它们(就像我学Perl时滥用正则表达式一样)。 我只对日期07-06-2017感兴趣:im = cv2.blur(i...

15得票5回答
如何从汉字中提取笔画

我一直在尝试创建一个算法,从汉字中提取笔画信息。我尝试了各种方法,但没有一个很令人满意,可能是因为我对图形算法的知识有限。 基本上,我有以下数据: 汉字,可以是像素或矢量(黑色) 笔画的整体轮廓,以像素表示(红色) 整体方向(蓝色箭头)。 从这个图中,我正在尝试提取笔画。如果你必...

8得票2回答
如何使用Python从PDF文件中提取图表/表格/图形?

经过搜索,我没有找到解决这种问题的方法,因此在此发布一个明确的问题。大多数答案涵盖图像/文本提取,这相对容易。 我需要从PDF中以文本(csv)和图像的形式提取表格和图形。 有人能帮我提供一种高效的Python 3.6代码来解决这个问题吗? 到目前为止,我可以使用startmark = ...

8得票1回答
OCR在金属板上印刻的文本中的应用

我正在开发一个OCR项目,目标是读取金属板上的压印序列号。我使用OpenCV来为OCR准备图像,并使用Tesseract进行OCR。这是理想的流程: 1. 在整个板子的图片中,裁剪出序列号的大致位置。 2. 为OCR准备裁剪后的图像。 3. 应用OCR。 我的当前流程是: 1. 手动裁剪...

19得票2回答
Tesseract混淆了两个数字

我正在编写一个应用程序,用于从图像中扫描数字。 这些数字使用OCR-B字体,并且可能还包含"+"和">"字符。 这是我的源图像: 使用Tesseract进行扫描时效果不太好,即使将字符集限制为所提到的字符。由于我没有找到适用于Tesseract的OCRB训练文件,因此决定自己进行训练...

9得票3回答
如何使用pytesseract获取每行文字的置信度

我已成功安装并配置好了Tesseract,可以将图片转换为文字... text = pytesseract.image_to_string(Image.open(image)) 然而,我需要获取每行的置信度值。使用pytesseract无法找到实现此操作的方法。有人知道如何做吗? 我知...

18得票1回答
使用Tesseract OCR进行中文字符识别

我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。但是,如果我使用中文文本图像并通过OCR处理,那么Tesseract不会向我提供中文字符,而是得到数字和英文字符。但是我需要显示在图像中使用的中文字符。 如何实现这一点?有没有办法获得中文字符而不是其他字符?

12得票1回答
Tesseract无法获取小标签。

我已经在我的 Linux 环境中安装了 Tesseract。 当我执行以下类似命令时,它可以正常工作: # tesseract myPic.jpg /output 但是我的图片上有一些小标签,而tesseract没有识别到它们。 是否有可用的选项来设置音高或类似的东西? 文本标签示...

14得票1回答
OCR库用于识别仪表设备上的数字

我需要一个OCR库(preferably in Java),它可以确定仪表设备上可视化的数字。请参见图像。我已经尝试了一些Java库,但它们无法确定这种字体。 更新 1: Tesseract 和 Asprise 库无法完成此任务

7得票2回答
Tesseract空白页面

我使用tesseract来检测图像上的字符。 try { using (var engine = new TesseractEngine(@"C:\Users\ea\Documents\Visual Studio 2015\Projec...