我正在使用tesseract进行OCR,有时会出现分割错误,将“明显”属于一起的字符分成不同的字符串。
基于在一个文本行中找到的字符及其边界框列表和初步OCR结果,建议哪些字符属于一个单词,可以应用哪些算法来纠正分割错误或验证结果?
因此,这是可用的数据:
List<Word> words;
for(Word word : words){
for(Char c : word.getChars()){
char ch = c.getValue();
Rectangle rect = c.getRect();
}
}