我有一个包含每行一个单词的大文件。整个文件已经排序好了,现在我需要对其进行压缩。我可以简单地使用 GZIP 进行压缩,结果不错。但是我想知道是否有可能更好地压缩,因为我们正在处理一个已排序的单词列表。
以下是我的已排序单词列表的一部分:
[...]
ABAISSAT
ABAISSATES
ABAISSE
ABAISSEE
ABAISSEES
ABAISSEMENT
ABAISSEMENTS
ABAISSENT
ABAISSER
ABAISSERA
ABAISSERAI
ABAISSERAIENT
ABAISSERAIS
[...]
使用前缀来压缩文件是否比GZIP获得更好的结果?
[...]
ABAISS AT ATES E EE EES EMENT EMENTS ENT ER ERA ERAI ERAIENT ERAIS
[...]
有什么算法可以让我使用所描述的压缩方法来压缩单词列表?还有其他的压缩数据的想法吗?
P.S. 我考虑过使用 Trie 并实现了它。Trie 的最终内存大小几乎与列表本身一样大,加载列表的时间非常长。因此,出于这些原因,我决定不走这条路。