16得票3回答
将pandas时间间隔转换为字符串(以及反向转换)

我对 Python 相对较新,并且正在尝试准备一些数据以训练一个 RandomForest。由于各种原因,我们希望数据是离散的,所以有一些连续变量需要被离散化。我在 pandas 中找到了 qcut 函数,它似乎可以做到我想要的 - 我可以设置一定数量的 bins,它会将变量离散化为那么多个 ...

12得票5回答
如何在sklearn中对连续属性进行离散化处理?

我的数据由连续和分类特征的混合组成。以下是我的数据在csv格式下的小片段(将其视为由在不同城市经营商店的超级商店连锁收集的数据)。city,avg_income_in_city,population,square_feet_of_store_area, store_type ,avg_rev...

7得票1回答
基于自定义范围对 Pandas 列进行离散化

有没有一种方法可以根据自定义范围(意味着区间长度不等)来离散化 Pandas 数据帧中的一列?之前在这里提出的问题并未涵盖此案例。 例如,假设我们想将数字成绩(满分为 4 分)按以下方式转换为区间: 3.75 到 4:优秀 3.5 到 3.75:很好 3.25 到 3.5:好 3 到...

7得票4回答
使用round()对连续值进行分组会产生伪影。

在Python中,假设我有连续变量x和y,它们的值被限制在0到1之间(为了使其更容易)。我的假设一直是,如果我想将这些变量转换为序数值,并且将bins设置为0,0.01,0.02,...,0.98,0.99,1,可以简单地将原始值舍入到第二位小数。但出于某种原因,当我这样做时会留下痕迹。 让...