如何使用seaborn displot将直方图条形图居中对齐刻度线?堆叠条形图是必需的。

3

我已经尝试了许多方法来使直方图以刻度标记为中心,但是无法找到一个能与Seaborn displot一起使用的解决方案。Displot函数允许我根据数据框中的列堆叠直方图,因此我希望使用displot或类似于按照数据框中的列进行堆叠并进行颜色编码的解决方案。

即使设置了刻度值,我仍然不能使条形图居中于刻度标记周围。

示例代码:

# Center the histogram on the tick marks 
tips = sns.load_dataset('tips')
sns.displot(x="total_bill",
                hue="day", multiple = 'stack', data=tips)
plt.xticks(np.arange(0, 50, 5))



我还想绘制一个直方图,针对只有一个值的变量,并选择直方图的条形宽度使其围绕着该值居中(例如,在此示例中为0.5)。
我可以通过选择与刻度标记数量相等的条形数来得到中心点,但结果非常狭窄。在这种情况下如何增加条形宽度,其中只有一个条形,但希望显示所有可能的点。通过显示所有刻度标记,条形宽度非常小。 我希望在0.5刻度处具有相同的条形居中,但是将其宽度加宽,因为该值是唯一显示计数的值。 有什么解决方法吗?
tips['single'] = 0.5
sns.displot(x='single',
                hue="day", multiple = 'stack', data=tips, bins = 10)
plt.xticks(np.arange(0, 1, 0.1))

编辑: 在第二种情况下,是否可以更好地控制刻度线?我不想显示一位小数,而是选择要显示哪些刻度线。是否可以仅显示一个刻度值并将其居中? 在这种情况下,min_val和max_val是指该变量的值,这个值将为0,在这种情况下,即使不存在负值也会在x轴上绘制负值,而且不想显示它们。

刻度标记只是轴界限内的数值列表。您可以根据需要构建它们,它们将出现在适当的位置。请参阅我的编辑答案以获得解释。 - skuzzy
最小值和最大值是从之前的示例中继承下来的。基本上,您需要提供应计算箱子的范围。此外,我认为您真正想绘制的是分类条形图。是这种情况吗? - skuzzy
@skuzzy 非常感谢您的解释。我并不是试图绘制分类值,但这有助于我看到当我想要在x轴上表示有限值时可以使用的逻辑。 - Anusha
1个回答

4

对于你的第一个问题,你可能想要弄清楚你正在绘制的数据的一些属性。例如,数据的范围。此外,您可能希望预先选择要显示的 bin 的数量。

tips = sns.load_dataset('tips')
min_val = tips.total_bill.min()
max_val = tips.total_bill.max()
val_width = max_val - min_val
n_bins = 10
bin_width = val_width/n_bins

sns.histplot(x="total_bill",
                hue="day", multiple = 'stack', data=tips,
                bins=n_bins, binrange=(min_val, max_val),
                palette='Paired')
plt.xlim(0, 55) # Define x-axis limits

另外需要记住的是,直方图中一根条形的宽度表示其范围的界限。因此,在x轴上跨越[2,5]的条形表示该条形所代表的值属于该范围。
考虑到这一点,很容易制定出解决方案。假设我们想要原始的条形图 - 识别每个条形图的边界,一个解决方案可能如下:
plt.xticks(np.arange(min_val-bin_width, max_val+bin_width, bin_width))

Bounded bars

现在,如果我们将刻度偏移半个条形宽度,就可以到达条形的中心。

plt.xticks(np.arange(min_val-bin_width/2, max_val+bin_width/2, bin_width))

Centered Ticks - Paired

对于您的单值图,想法保持不变。控制bin_width和x轴范围和刻度。必须明确控制bin-width,因为自动推断bin-width可能为1个单位宽,而在绘图上没有厚度。直方图条形始终指示范围 - 即使我们只有一个单一值。这在以下示例和图中说明。
single_val = 23.5
tips['single'] = single_val
bin_width = 4

fig, axs = plt.subplots(1, 2, sharey=True, figsize=(12,4)) # Get 2 subplots 

# Case 1 - With the single value as x-tick label on subplot 0
sns.histplot(x='single',
                hue="day", multiple = 'stack', data=tips, 
                binwidth=bin_width, binrange=(single_val-bin_width, single_val+bin_width),
                palette='rocket',
                ax=axs[0])
ticks = [single_val, single_val+bin_width] # 2 ticks - given value and given_value + width
axs[0].set(
    title='Given value as tick-label starts the bin on x-axis',
    xticks=ticks,
    xlim=(0, int(single_val*2)+bin_width)) # x-range such that bar is at middle of x-axis
axs[0].xaxis.set_major_formatter(FormatStrFormatter('%.1f'))

# Case 2 - With centering on the bin starting at single-value on subplot 1
sns.histplot(x='single',
                hue="day", multiple = 'stack', data=tips, 
                binwidth=bin_width, binrange=(single_val-bin_width, single_val+bin_width),
                palette='rocket',
                ax=axs[1])

ticks = [single_val+bin_width/2] # Just the bin center
axs[1].set(
    title='Bin centre is offset from single_value by bin_width/2',
    xticks=ticks,
    xlim=(0, int(single_val*2)+bin_width) ) # x-range such that bar is at middle of x-axis
axs[1].xaxis.set_major_formatter(FormatStrFormatter('%.1f'))

输出:

Single-value chart

从您的描述中,我感觉您真正暗示的是一个分类条形图。居中对齐是自动完成的,因为条形不再是一个范围,而是一个离散的类别。对于示例数据中变量的数字和连续性质,我不建议使用这种方法。Pandas提供了绘制分类条形图的功能。请参见此处。对于我们的示例,可以按以下方式操作:

n_colors = len(tips['day'].unique()) # Get number of uniques categories
agg_df = tips[['single', 'day']].groupby(['day']).agg(
    val_count=('single', 'count'),
    val=('single','max')
).reset_index() # Get aggregated information along the categories
agg_df.pivot(columns='day', values='val_count', index='val').plot.bar(
    stacked=True,
    color=sns.color_palette("Paired", n_colors), # Choose "number of days" colors from palette
    width=0.05 # Set bar width
    ) 
plt.show()

这将产生:

pandas categorical plot


我在这里添加注释之前尝试了添加调色板,但没有起作用。这种方法为什么适用于histplot而不是displot?我一直在尝试使用displot,但它不起作用。从histplot和displot得到的图形看起来非常不同,我发现displot以更好的方式显示趋势。这是因为y轴的缩放吗?为什么histplot也没有遵循我选择的sns样式或颜色方案的原因呢? - Anusha
我已经为你的第二个问题编辑了我的答案。你能详细说明一下你的错误吗? 让我们把这个讨论移到聊天室 - https://chat.stackoverflow.com/rooms/6/python。 - skuzzy
你使用了哪种sns/seaborn风格或颜色来展示图形?此外,我认为这个min() arg错误是由于调色板访问这些绘图值的方式引起的。是否有解决方案可以将调色板添加到上面的代码中? - Anusha
我在单个直方图中遇到了错误。NameError: name 'FormatStrFormatter' is not defined。我添加了刻度并尝试定义它,但需要语法方面的帮助。 - Anusha
哦,您需要导入它 - from matplotlib.ticker import FormatStrFormatter。只是为了格式化浮点标签。 - skuzzy
显示剩余5条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接