导入pytesseract

7

我正在尝试使用pytesseract进行OCR(从图像中提取文本)。我已经成功安装了pytesseract,使用的命令是 -

pip install pytessearct

当我尝试重新安装时,它明确地显示:-
Requirement already satisfied (use --upgrade to upgrade): 
pytesseract in ./site-packages

这意味着pytesseract已经成功安装。当我尝试在我的iPython笔记本中导入这个包时,使用以下命令 -
import pytessearct

它抛出一个错误 -
ImportError: No module named pytesseract

为什么会发生这种情况?

这个./site-packages是Python安装时自带的路径,还是你项目目录的引用路径? - be_good_do_good
你能否创建一个名为“PYTHONPATH”的环境变量,并将site-packages的完整路径作为该变量(PYTHONPATH)的值? - be_good_do_good
我按照你说的创建了变量。我需要做其他的更改吗?因为问题依然存在。 - ComplexData
你是否将 site-packages 的完整路径添加为你创建的系统变量的值了? - be_good_do_good
1
IPython 可能在与 pip 安装的 Python 不同的安装中运行。请在 IPython 中检查 sys.path,以查看它将尝试从哪些目录导入。 - Thomas K
显示剩余4条评论
1个回答

8

要使用Python-tesseract - 需要python 2.5+或python 3.x - 首先您需要通过pip安装PIL和pytesseract软件包:

pip install Pillow
pip install pytesseract

接下来您需要下载并安装Tesseract OCR:

https://sourceforge.net/projects/tesseract-ocr-alt/?source=typ_redirect

据我所知,它会自动将其添加到您的PATH变量中。

然后按照以下方式使用它:

import pytesseract
from PIL import Image

img = Image.open('Capture.PNG')
pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'
print( pytesseract.image_to_string(img) )

我希望这能有所帮助 :)

1
不要下载OCR,请使用以下命令安装:sudo apt install tesseract-ocr - Roman

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接