我有一个非常庞大且稀疏的垃圾推特账户数据集,需要我扩展x轴以便能够可视化各种变量(推文数、粉丝/关注人数等)的分布(直方图、核密度估计等)和累积分布函数。
> describe(spammers_class1$tweets_count)
var n mean sd median trimmed mad min max range skew kurtosis se
1 1 1076817 443.47 3729.05 35 57.29 43 0 669873 669873 53.23 5974.73 3.59
在这个数据集中,值为0非常重要(实际上应该具有最高密度)。然而,在对数刻度下,这些值被忽略了。我考虑将值更改为0.1,但是这样就没有意义了,因为会出现拥有10^-1个关注者的垃圾账户。
那么,在Python和Matplotlib中有什么解决方法?
symlog
。https://dev59.com/1nA75IYBdhLWcg3wboUz - tacaswell