压缩数字化的文档图像

4

根据法律要求,我们现在需要将公司的所有财务文件数字化,并每3个月提交给评估机构。

由于这些是敏感数据,我们决定采取行动并建立某种数字数据归档工具。该工具运作完美,但使用7个月后,我们开始担心这些图像所使用的磁盘空间。

以下是数字化文档的相关信息:

  • 每天扫描和存档15K份文档,最终PNG大小约为860KB:15,000 * 860千位元 = 1.53779984千兆字节
  • 每月工作30天:1.53779984千兆字节 * 30 = 46.1339952千兆字节
  • 预计1年后的磁盘空间使用量:46.1339952千兆字节 * 12 = 553.607942千兆字节

目前,我们使用了424千兆字节的磁盘空间,不包括备份。我们使用PNG作为图像格式,但我想知道是否有关于更好的图像压缩算法或其他策略来进一步压缩PNG,或者更好的图像归档方法以节省磁盘空间的建议。

任何帮助都将不胜感激,谢谢。

3个回答

3
你最好使用DjVu,这是一种相对较新的格式,专门用于压缩扫描文档。它适用于双色、灰度和彩色文档。它将前景/背景分离与复杂的小波压缩方案结合起来。如果你购买商业版,我相信你还可以获得OCR处理,这样你就可以搜索文档了,但也有一个完全开源的版本叫做DjVuLibre

这个网站真让人恼火!所有详细文档都是djvu格式的。有人需要被敲一下脑袋。 - ergosys
@ergosys:哎呀!那真是让人烦恼。这个故事有点悲伤——AT&T做了非常好的研究,但律师们决定要将其商业化,原来的人离开了,最终结果就是到处都是混乱。但是软件确实非常好用。我在我扫描的文件盒子上大量使用它。 - Norman Ramsey

2
据您提供的信息,我认为这些文件不必一直在线上。如果是这种情况,我不认为您需要改变工作流程。
PNG是一种广泛支持的格式,具有无损(zlib)压缩,我猜您正在使用。如果您不需要无损压缩,好老的JPEG将以稍微降低质量为代价,给您更紧凑的压缩,只要您适当地调整压缩比。JPEG2000可能是另一个选择,具体取决于您的软件堆栈。LZW压缩的TIFF除了支持每像素16位外,与PNG相比没有任何主要优势,而您可能并不需要这个功能。其他选项包括专有的特殊编解码器(如MrSID),可以为价格提供极好的大文件压缩。
既然这些是扫描文档,我认为PDF是对它们进行编码的“自然”格式。PDF根据文件内容提供各种压缩选项。但我不会费力去修复没有问题的东西。
如果您考虑一下现在花费多少钱购买驱动器空间,每天1.5 GB其实微不足道。驱动器空间便宜,而且不断便宜。每6个月花费总计240美元或其他金额购买三个新的1 TB USB驱动器(主/备份/离线备份)。即使是磁带备份也不过分。

0

每年500 GB并不算太多,而且硬盘价格每年都在降低。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接