仅使用JavaScript从PDF文件中提取文本

3
我该如何在客户端使用JavaScript从PDF文件中提取数据,无论使用哪种浏览器?

这个回答解决了你的问题吗?https://dev59.com/1XI_5IYBdhLWcg3wDOZC - John Goofy
2个回答

2

根据millimoose的评论,pdf.js的输出仍然很糟糕,但似乎可以通过一些黑科技来“足够地”提取文本信息。 - user166390
@pst 对,虽然这只是一个尝试,但也没有太多选择了。 - Christophe

-1

你所要求的实际上是不可能的。

PDF 是一个针对高效显示大型复杂文档进行优化的重量级格式,而不是针对进一步处理进行优化的。 (事实上,PDF 文档主要由定位在页面上的字母形状和其他图形组成。表示“文本段落”的任何数据都是标记 PDF 的可选功能。)

文本提取往往是(通常昂贵的)PDF 库的一个功能,据我所知,JavaScript 并不存在这样的库。 Scribd 和 Google Docs 做到了这一点,但他们可能不会分享如何做到的,并且我的猜测是他们是在服务器端完成此操作。

tl;dr: 就格式而言,PDF 对此非常糟糕。 除非您的应用程序基本上的全部目的是从 PDF 中提取文本,否则最好花时间想出如何避免这样做。


https://github.com/mozilla/pdf.js/怎么样?不确定它是否有易于使用的API... - elclanrs
1
从描述来看,@etclanrs 是一个 PDF 渲染库。显示 PDF 与提取适合文本处理的数据是两个不同的问题。类比一下,就像绘制 JPEG 与识别人脸。解析原始数据的低级代码是相同的,但解释这些数据完全不同。 - millimoose
使用完整的编程语言从PDF中提取文本已经很困难了,所以pdf.js可能更像是一个梦想而不是现实。此外,它看起来像是没有文档的虚拟产品,这可能会对大型项目构成负担。 - le3th4x0rbot
1
@Christophe 你可以通过查看Calibre转换器的配置选项来了解需要完成的工作/已经完成的工作:http://manual.calibre-ebook.com/cli/ebook-convert.html(事实上,如果我要做这样一个功能,我的第一步是将PDF文件输入到calibre中并祈祷。即使如此,结果也不可能总是令人满意,除非最终用户调整这些参数。) - millimoose
关于文本,可以参考这里 - Mike H-R
显示剩余5条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接