Tesseract OCR用户模式

21
有没有办法让 Tesseract 只匹配用户指定的单词或模式?手册声称这是可能的,但我找不到任何在互联网上记录的人成功使用它的例子。以下是很多人因为无法使用而寻求帮助的示例,而且都没有证明解决方法: stackoverflow.com/questions/33429143/tesseract-user-pattern-is-not-applied stackoverflow.com/questions/31874393/tesseract-ocr-force-pattern stackoverflow.com/questions/26856349/provide-pattern-for-tesseract stackoverflow.com/questions/22432194/tesseract-ocr-only-detect-user-words stackoverflow.com/questions/17209919/tesseract-user-patterns groups.google.com/forum/#!topic/tesseract-ocr/S9CIK3jOMWw groups.google.com/forum/#!topic/tesseract-ocr/5vFqVcJmHnM 那么我们可以得出结论,这个功能根本不起作用吗?是否有官方声明证实了这一点?

2
很多链接的Tesseract文档似乎已经移动了。这里是一个在Github上的手册链接。 - Evan
2
一年过去了,情况似乎仍然如此。 - Slight
手册的链接已失效。 - Adelin
1
仓库管理员表示,用户模式在v3.02左右出现了问题。LSTM v4.0可能也会破坏用户模式以及字符白名单 https://github.com/tesseract-ocr/tesseract/issues/960 - NightFury13
1个回答

7
现在Tesseract文档网站上有一个示例,链接为https://tesseract-ocr.github.io/tessdoc/APIExample-user_patterns.html [感谢@Ravi提供新链接]。
这个测试示例在Tesseract 4.x的oem=1 / LSTM模式下对我有效。
然而,我无法使其在任何其他示例或模式下工作。
我没有看到官方声明,在撰写本文时似乎该功能确实不可用。

为什么要踩我?这只是三年后的全部成果,并不是我的错。难道我应该删除这个答案吗? - jtlz2
仍然无法使用Windows二进制文件使其正常工作。 - Master Azazel

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接