Tesseract用户模式匹配

Question

Tesseract用户模式匹配

18

任何人知道如何在Tesseract中使用用户模式（user_patterns_suffix）吗？您能告诉我如何处理它以及如何测试它是否有效吗？我尝试按照Tesseract指南的操作（Tesseract用户模式），但我没有看到它对结果产生任何影响。谢谢。

- kha nguyen

你尝试过追加“bazaar”配置文件吗？请参阅tesseract(1)。 - pvorb

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Stuart N. Thomas · Accepted Answer

Tesseract使用一种模式来进行"正则表达式"的排序。如果您正在扫描的书籍数据都是相同格式的，那么可以使用该模式。该模式可用于告诉Tesseract应该期望什么格式，例如它期望用户词汇中的单词格式。以下是Tesseract描述如何使用模式的方法：

每个模式可以包含任何非空白字符，但只有包含相应语言的unicharset中的字符的模式才有用。唯一的元字符是\。要将其作为普通字符串在模式中使用，应该用\进行转义（例如，字符串C:\Documents应该在模式文件中写成C:\\Documents）。

此函数支持非常有限的正则表达式语法。可以表示一个字符、某个字符类和实体在模式中应重复的次数。

要表示字符类，请使用以下之一：

- \c - 使UNICHARSET::get_isalpha()为true的unichar（字符） - \d - 使UNICHARSET::get_isdigit()为true的unichar - \n - 使UNICHARSET::get_isdigit()和UNICHARSET::isalpha()都为true的unichar - \p - 使UNICHARSET::get_ispunct()为true的unichar - \a - 使UNICHARSET::get_islower()为true的unichar - \A - 使UNICHARSET::get_isupper()为true的unichar 可以在每个字符或模式后面指定\*，以指示可以在下一个字符/模式出现之前重复任意次数的字符/模式。

例如： - 1-8\d\d-GOOG-411将扩展为字符串：1-800-GOOG-411、1-801-GOOG-411、... 1-899-GOOG-411。 - "ww.\n\*.com"将扩展为字符串，例如："ww.a.com"、"ww.a123.com"、... "ww.ABCDefgHIJKLMNop.com"

注意：在选择要包含的模式时，请注意提供非常通用的模式会使tesseract运行更慢。例如，在模式的开头使用\n\*将使Tesseract考虑每个分割的建议字符选择的所有组合，这将是无法接受的缓慢。由于可能存在难以识别的速度问题，因此每个用户模式必须从unicharset的开头具有至少kSaneNumConcreteChars个具体字符。