13得票3回答
处理具有大量水平的因子的R机器学习包

我正在尝试做一些需要大量因素型变量(例如单词、描述、时间等非数值型内容)的机器学习。通常我会使用randomForest,但它无法处理具有超过32个级别的因子。 请问是否有其他好用的替代方案?

23得票4回答
按行查找最频繁的值

我的问题如下:我有一个包含多个因子变量的数据集,这些变量具有相同的类别。我需要找到每一行中出现最频繁的类别。如果存在并列情况,则可以选择任意值,但如果我能有更多控制权就更好了。我的数据集包含超过一百个因子,但结构大致如下:df = data.frame(id = 1:3 ...

9得票2回答
在R中将虚拟变量转换为单一的分类变量(因子)

我有一组被编码为二项式的变量。 Pre VALUE_1 VALUE_2 VALUE_3 VALUE_4 VALUE_5 VALUE_6 VALUE_7 VALUE_8 1 1 0 0 0 0 0 1 ...

12得票9回答
打印给定数字的所有唯一因子组合

什么是打印正整数所有唯一因子组合的最有效算法。例如,如果给定数字为24,则输出应为 24*1 12*2 8*3 6*4 6*2*2 4*3*2 3*2*2*2 请注意,当打印6*4时,不会打印4*6。因此,基本上这是一个考虑顺序而不考虑重复子集的问题(看待该问题的一种方式)。但目标是拥有...

8得票2回答
创建因子时设置水平 vs. 使用`levels()<-`函数

首先让我们创建一些因素: F1 &lt;- factor(c(1,2,20,10,25,3)) F2 &lt;- factor(paste0(F1, " years")) F3 &lt;- F2 levels(F3) &lt;- paste0(sort(F1), " years") F4 &...

12得票14回答
寻找给定整数的因数

我有一个类似这样的代码:int f = 120; for(int ff = 1; ff &lt;= f; ff++){ while (f % ff != 0){ } 我的查找因子的循环有什么问题吗?我对于for和while语句的工作原理感到非常困惑,所以它们很可...

7得票2回答
如何使用O(1)的时间复杂度计算小于N的某个数的倍数之和?

我们有两个数字M和N。我们需要计算所有小于N的、可以被M整除的整数的总和。 是否有可能用O(1)复杂度解决它? 我知道这是一个非常简单的程序,可以很容易地使用循环来完成。但我想知道是否有可能应用某种公式或其他方法直接计算小于N且可被M整除的数字的总和。

19得票7回答
将具有N个类别因子的数据重编码为N个二进制列

原始数据框:v1 = sample(letters[1:3], 10, replace=TRUE) v2 = sample(letters[1:3], 10, replace=TRUE) df = data.frame(v1,v2) df v1 v2 1 b c 2 a a...

19得票4回答
直接按升序列出一个数的因子,而无需排序?

有没有一种高效的算法,可以按升序枚举一个数n 的因子而不进行排序?所谓“高效”,是指: 该算法通过从n的质因数分解开始避免了暴力搜索约数。 该算法的运行时间复杂度为O(d log₂ d)或更好,其中d是n的因子数量。 该算法的空间复杂度为O(d)。 该算法避免了排序操作。也就是说,因子是按...

21得票3回答
从 ggplot 条形图中删除未使用的因子水平

我想要做与这个问题相反的事情,也就是这个问题的相反,不过那个问题是关于图例而不是图形本身。 其他的SO问题似乎都在问如何保留未使用的因子水平。但我实际上希望它们被删除。我有几个名称变量和几列(宽格式)的变量属性,我正在使用它们创建许多条形图。以下是一个可重现的示例:library(ggplo...