如何在安卓应用内将PDF文件转换为文本?

3

我想制作一个将文本转换为语音的PDF阅读器,我已经为.txt文件做好了准备,但是我不知道如何将pdf文件转换成txt。

有些pdf文件是扫描副本,对于它们该怎么办?


1
你不能直接阅读图像。你需要先将其转换为文本。为此,你需要一个利用人工智能技术的OCR软件... 你确定要让自己陷入这种境地吗?! - Phantômaxx
好的,先把扫描副本留一会儿,那普通的PDF呢? - Rajan Maurya
1
有第三方库可以实现这个功能,比如muPdf,只是举一个例子。 - Phantômaxx
1个回答

2
要做到这一点,您需要使用某些工具来识别代码中的文本。根据维基百科:
光学字符识别(Optical character recognition)通常缩写为OCR,是将打字或印刷文字的扫描或拍摄图像机械或电子转换为机器编码/计算机可读文本的过程。它被广泛用作从某种原始纸质数据源(如护照文件、发票、银行对账单、收据、名片、邮件或任何数量的印刷记录)进行数据输入的一种形式。它是将印刷文本数字化的常见方法,以便可以在机器流程中使用,例如机器翻译、文本转语音、关键数据提取和文本挖掘。OCR是模式识别、人工智能和计算机视觉领域的研究。
一些参考资料:
1.有一些教程可用:http://kurup87.blogspot.nl/2012/03/android-ocr-tutorial-image-to-text.html 2.示例应用程序:https://github.com/rmtheis/android-ocr https://github.com/GautamGupta/Simple-Android-OCR 3.API:http://ocrapiservice.com 4.库:http://www.abbyy.com/mobileocr/android/ 如果您无法选择要选择什么,那么在此方面有许多stackoverflow帖子可用,只需在Google中搜索“android ocr stackoverflow”即可。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接