使用Tesseract OCR进行中文字符识别

Question

18

我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。但是，如果我使用中文文本图像并通过OCR处理，那么Tesseract不会向我提供中文字符，而是得到数字和英文字符。但是我需要显示在图像中使用的中文字符。

如何实现这一点？有没有办法获得中文字符而不是其他字符？

- Nishant Tyagi

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Alok Singh · Accepted Answer

您需要下载中文训练数据（文件名类似于 chi_sim.traineddata），并将其添加到您的tessdata文件夹中。

下载该文件，请访问以下链接：https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata 添加后，您可以像这样使用它。

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果您遇到任何问题，您可以从https://github.com/aryansbtloe/ExperimentWithTesseract.git下载我的tessaract（支持中文语言）实验。

我已经测试过了，希望您会觉得这个实验有用。