数据压缩-指数分布的机器学习

3

有没有任何机器学习算法或预测模型可以帮助我压缩指数分布的数据?我已经使用Golomb码对文件进行了编码,这确实节省了大量空间,但这还不够--我需要更好的压缩率。PAQ8L无法将其压缩到足够小。

如有必要,请请求该文件。

指数分布 --

{a,b,b,a,a,b,c,c,a,a,b,a,a,b,a,c,b,a,b,d}


可能是Huffman编码的一种变体? - biziclop
"PAQ8L压缩不够。" 你的期望是什么?数据的大小和何种压缩比才能达到“足够”?也许你的期望过高,无法实现。不过你可以尝试一下cmix(需要大量内存):http://www.byronknoll.com/cmix.html。 - flanglet
2个回答

1

我不认为这在理论上是可能的。Golomb编码已经对于几何分布的数据是最优的。


不是真的;谷歌paq8l压缩我感兴趣的golomb编码字符串至少50%。是的,这绝对是可能的。 - user562688
正如其他帖子中提到的那样,PAQ*算法使用上下文混合算法。这意味着,您对数据的了解不仅仅是“指数分布”。@user562688 - justin.yqyang

0

正如其他帖子中提到的那样,PAQ*算法使用上下文混合算法。这意味着,您对数据的了解不仅仅是“指数分布”。 我认为,如果只知道数据的指数分布,高隆码仍然是最优的。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接