有一个在 R 中的很好的解决方案。
我的 df.column
看起来像:
Windows
Windows
Mac
Mac
Mac
Linux
Windows
...
我希望在这个 df.column 向量中用“其他”替换低频类别。例如,我需要我的 df.column 看起来像这样Windows
Windows
Mac
Mac
Mac
Linux -> Other
Windows
...
我想要重新命名这些稀有类别,以减少回归中的因素数量。这就是为什么我需要原始向量。在Python中,运行获取频率表的命令后,我得到了:
pd.value_counts(df.column)
Windows 26083
iOS 19711
Android 13077
Macintosh 5799
Chrome OS 347
Linux 285
Windows Phone 167
(not set) 22
BlackBerry 11
我想知道是否有一种方法可以将“Chrome OS”、“Linux”(低频数据)重命名为另一个类别(例如“其他”类别),并且以高效的方式实现。