我正在尝试使用Tesseract(使用Tess4J包装器)仅匹配特定模式。该模式是四个连续的数字,应该是\d\d\d\d。这是我正在提供给tesseract的图像的非常小的子集(平面图受限,因此我谨慎发布更多内容):http://mike724.com/view/a06771
我正在使用以下Java代码:
我遇到的问题是,Tesseract似乎没有遵守这些配置选项,我仍然在结果中得到文本/单词。我期望只得到房间号码(例如2950)。
File imageFile = new File("/<redacted>/file.pdf");
Tesseract instance = Tesseract.getInstance();
instance.setTessVariable("load_system_dawg", "F");
instance.setTessVariable("load_freq_dawg", "F");
instance.setTessVariable("user_words_suffix", "");
instance.setTessVariable("user_patterns_suffix", "\\d\\d\\d\\d");
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
我遇到的问题是,Tesseract似乎没有遵守这些配置选项,我仍然在结果中得到文本/单词。我期望只得到房间号码(例如2950)。