寻找从PDF文件中提取内容的解决方案(使用控制台工具或库)。
它将用于服务器上,从上传的PDF文件生成在线电子书。
需要提取以下内容:
1.带有字体和样式的文本;
2.图像;
3.音频和视频;
4.链接和热点;
5.页面快照和缩略图;
6.一般的PDF信息,如书籍布局,页数等等。
看着Adobe PDF Library($5000),BCL SDK(?), PDFLib(€795),QuickPDF ($250)。
现在我们正在使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图)。剩下的东西是:
1.字体;
2.多媒体;
3.热点;
4.页面信息。
我们正在犹豫是否要支付大量的费用(可能会选择错误的解决方案),还是使用免费/开源的解决方案。
您会推荐哪个最好的解决方案来从PDF中提取几乎所有内容?
任何评论都将不胜感激。
它将用于服务器上,从上传的PDF文件生成在线电子书。
需要提取以下内容:
1.带有字体和样式的文本;
2.图像;
3.音频和视频;
4.链接和热点;
5.页面快照和缩略图;
6.一般的PDF信息,如书籍布局,页数等等。
看着Adobe PDF Library($5000),BCL SDK(?), PDFLib(€795),QuickPDF ($250)。
现在我们正在使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图)。剩下的东西是:
1.字体;
2.多媒体;
3.热点;
4.页面信息。
我们正在犹豫是否要支付大量的费用(可能会选择错误的解决方案),还是使用免费/开源的解决方案。
您会推荐哪个最好的解决方案来从PDF中提取几乎所有内容?
任何评论都将不胜感激。