我在我的Perl应用程序中使用
目前,一旦应用程序看到OCR输出中的非ASCII字符,它就会从PDF核心字体切换到TTF字体。然而,这真的很hacky,因为核心字体包括大多数西欧字符。 TTF仅对希腊语、俄语、日语等语言需要。
我如何确定特定字体是否包含特定字符(包括CMAP表,以便使用
PDF::API2
来嵌入OCR输出到相应的图像后面,使得生成的PDF文件可以被搜索,因为OCR输出可以使用pdftotext
提取。目前,一旦应用程序看到OCR输出中的非ASCII字符,它就会从PDF核心字体切换到TTF字体。然而,这真的很hacky,因为核心字体包括大多数西欧字符。 TTF仅对希腊语、俄语、日语等语言需要。
我如何确定特定字体是否包含特定字符(包括CMAP表,以便使用
pdftotext
进行提取)?