8得票1回答
有没有自动纠正数据框中所有变量类别的方法?

我有一个包含大约250个变量的数据框。不幸的是,使用sqldf从SQL数据库导入时,所有这些变量都被作为字符类导入。 问题在于:它们中的所有变量都不应该是字符类。其中有数值变量、整数以及日期。我想建立一个可以运行所有变量的模型,为此我需要确保变量具有正确的类别。逐个进行可能是最好的方法,但仍然...

7得票2回答
使用pandas和sqldf时获取"no such table"错误

我遇到了sqlite3错误。 操作错误:没有Bills表 我首先使用pandas调用我的数据帧,然后在查询中调用这些数据帧,这个过程是正常的。 import pandas as pd from pandasql import sqldf Bills = pd.read_csv("Bil...

7得票3回答
在R中快速选择表格中的行的方法是什么?

我正在寻找一种快速的方法来从一个更大的表中提取大量的行。我的表的顶部如下所示: > head(dbsnp) snp gene distance rs5 rs5 KRIT1 1 rs6 rs6 CYP51A1 1 r...

7得票1回答
从sqldf查询中调用R函数

有没有办法从sqldf查询中调用R函数?例如: sqldf("select paste('Hello', 'World')") 或者,是否有一种方法在sqldf后面的SQLite引擎中定义自定义函数或存储过程?(我正在使用带有普通内存R数据框的sqldf;我没有连接到任何实际数据库。)

7得票1回答
sqldf: 按日期范围查询数据

我正在读取一个巨大的文本文件,其中包含'%d/%m/%Y'日期格式。我想使用sqldf的read.csv.sql来同时读取和按日期筛选数据。这样可以通过跳过许多我不感兴趣的日期来节省内存使用和运行时间。我知道如何借助dplyr和lubridate来实现这一点,但我只是想尝试一下sqldf,出于...

9得票1回答
sqldf:将时间戳从本地时间更改为GMT/UTC

在我的电脑上,sqldf将POSIXct从本地时间(我在CST,GMT -0600)更改为GMT / UTC。这是预期的行为吗?我能停止R或sqldf这样做吗?这是我的代码: > library('sqldf') > > before <- data.frame(c...

13得票2回答
在R中类似SQL的功能

我习惯于使用SQL编写数据操作逻辑,现在我正在学习R语言,有时候只是想执行在SQL中简单的操作,但是为了在R数据框上进行相同的操作,我必须学习许多与R相关的知识。是否有一个简单的解决方法?

23得票3回答
如果只能在本地机器上操作,如何最好地使用R和SQL?

我试图改进我的工作流程,希望社区能提供见解,因为我相对于“大数据”还比较新。 通常我会从公共来源下载几个互相关联的数据框。在拉出多个数据框之后,在对我的最终数据集进行回归分析和/或其他推断统计之前,我会执行各种数据处理步骤(例如过滤、排序、聚合、自定义计算)。 具体来说,你推荐哪种策略: ...

7得票1回答
使用sqldf将大型csv文件读入R的过程正常,但sqlite文件需要两倍于应有空间,并且需要“vacuuming”。

阅读相关内容后,我发现从包sqldf中使用read.csv.sql是读取大于内存的csv文件的最佳方法。此函数将数据直接读入sqlite数据库,并因此执行sql语句。 我注意到以下内容:似乎将数据读入sqlite中时,它会被存储到一个临时表中,所以为了使其在未来可用,需要在sql语句中明确要...

8得票1回答
如何将几个大型data.table对象附加到一个单独的data.table中,并快速导出为csv而不会耗尽内存?

这个问题的简单答案是“购买更多的RAM”,但我希望得到一个更有建设性的答案,并在此过程中学到一些东西。 我正在运行Windows 7 64位,拥有8GB的RAM。 我有几个非常大的.csv.gz文件(~450MB未压缩),具有完全相同的标题信息,我将其读入R并进行一些处理。 然后,我需...