我有一个包含大约250个变量的数据框。不幸的是,使用
如何自动纠正所有类别?也许有一种方法可以检测列中是否有字母字符或只有数字字符?
我认为自动方法无法完美地纠正所有类别。但它可能会纠正大多数类别,那些不好的,我可以手动处理。
我添加了一个sqldf标签,以防有人知道在导入数据时纠正这个问题的任何方法,但我认为这不是sqldf的问题,而是数据库的问题。
sqldf
从SQL数据库导入时,所有这些变量都被作为字符类导入。
问题在于:它们中的所有变量都不应该是字符类。其中有数值变量、整数以及日期。我想建立一个可以运行所有变量的模型,为此我需要确保变量具有正确的类别。逐个进行可能是最好的方法,但仍然非常繁琐。如何自动纠正所有类别?也许有一种方法可以检测列中是否有字母字符或只有数字字符?
我认为自动方法无法完美地纠正所有类别。但它可能会纠正大多数类别,那些不好的,我可以手动处理。
我添加了一个sqldf标签,以防有人知道在导入数据时纠正这个问题的任何方法,但我认为这不是sqldf的问题,而是数据库的问题。
Error in FUN(X[[i]], ...) : the first argument must be of mode character
。我想知道你是否知道这是为什么。 - jgozaltype.convert
中设置as.is=TRUE
。 - Rich Scrivendf[] <- lapply(df, function(x) type.convert(as.character(x), as.is = TRUE))
。这样你就不会有因子列了。如果你想让 R 自己决定因子,可以省略as.is = TRUE
。你不能在数据框上运行as.character()
,只能逐个对原子向量运行。 - Rich Scriven