8得票1回答
如何使用sqldf在R中保留日期格式?

如何在SQLDF中重命名日期字段而不更改格式? 请查看我下面的示例,其中我的重命名日期字段“dt”将日期转换为数字。如何避免这种情况或将其转换回日期? #Question for Stack Exchange df <- data.frame (date = c("2014-12-0...

8得票1回答
如何将几个大型data.table对象附加到一个单独的data.table中,并快速导出为csv而不会耗尽内存?

这个问题的简单答案是“购买更多的RAM”,但我希望得到一个更有建设性的答案,并在此过程中学到一些东西。 我正在运行Windows 7 64位,拥有8GB的RAM。 我有几个非常大的.csv.gz文件(~450MB未压缩),具有完全相同的标题信息,我将其读入R并进行一些处理。 然后,我需...

8得票1回答
有没有自动纠正数据框中所有变量类别的方法?

我有一个包含大约250个变量的数据框。不幸的是,使用sqldf从SQL数据库导入时,所有这些变量都被作为字符类导入。 问题在于:它们中的所有变量都不应该是字符类。其中有数值变量、整数以及日期。我想建立一个可以运行所有变量的模型,为此我需要确保变量具有正确的类别。逐个进行可能是最好的方法,但仍然...

7得票5回答
在R中导入数据集时跳过元数据

我的问题是如何在将数据导入R时跳过文件开头的元数据。我的数据为.txt格式,其中第一行是描述数据的元数据,需要将其过滤掉。 以下是以制表符分隔格式的数据框的最小示例: Type=GenePix Export DateTime=2010/03/...

7得票2回答
在R语言中创建家族嵌套树的父/子关系

我正在研究家谱树: 我已经基于sqldf适应了Bob Horton的示例https://www.r-bloggers.com/exploring-recursive-ctes-with-sqldf/ 我的数据: person father G...

7得票4回答
根据条件查找每行的最近匹配项并求和

考虑以下事件的数据表: library(data.table) breaks <- data.table(id = 1:8, Channel = c("NP1", "NP1", "NP2", "NP2", "NP3", "NP3", "AT4"...

7得票2回答
使用pandas和sqldf时获取"no such table"错误

我遇到了sqlite3错误。 操作错误:没有Bills表 我首先使用pandas调用我的数据帧,然后在查询中调用这些数据帧,这个过程是正常的。 import pandas as pd from pandasql import sqldf Bills = pd.read_csv("Bil...

7得票1回答
使用sqldf将大型csv文件读入R的过程正常,但sqlite文件需要两倍于应有空间,并且需要“vacuuming”。

阅读相关内容后,我发现从包sqldf中使用read.csv.sql是读取大于内存的csv文件的最佳方法。此函数将数据直接读入sqlite数据库,并因此执行sql语句。 我注意到以下内容:似乎将数据读入sqlite中时,它会被存储到一个临时表中,所以为了使其在未来可用,需要在sql语句中明确要...

7得票3回答
在R中快速选择表格中的行的方法是什么?

我正在寻找一种快速的方法来从一个更大的表中提取大量的行。我的表的顶部如下所示: > head(dbsnp) snp gene distance rs5 rs5 KRIT1 1 rs6 rs6 CYP51A1 1 r...

7得票1回答
sqldf: 按日期范围查询数据

我正在读取一个巨大的文本文件,其中包含'%d/%m/%Y'日期格式。我想使用sqldf的read.csv.sql来同时读取和按日期筛选数据。这样可以通过跳过许多我不感兴趣的日期来节省内存使用和运行时间。我知道如何借助dplyr和lubridate来实现这一点,但我只是想尝试一下sqldf,出于...