我有一个3GB大小的csv文件。这个文件太大了,无法在我的电脑上加载到R中。相反,我想要只加载部分行(比如说1000行),而不是整个数据集。
这种操作是否可行呢?我在任何地方都找不到答案。
我有一个3GB大小的csv文件。这个文件太大了,无法在我的电脑上加载到R中。相反,我想要只加载部分行(比如说1000行),而不是整个数据集。
这种操作是否可行呢?我在任何地方都找不到答案。
如果您不想花费成千上万的美元去使用Revolution R来一次性加载/分析您的数据,那么迟早需要找到一种方法对数据进行采样。
而这一步骤在R之外更容易实现。
(1) Linux Shell:
假设您的数据格式一致,每行是一个记录。您可以执行以下操作:
sort -R data | head -n 1000 >data.sample
select * from tablename order by rand() limit 1000
sort
版本是否有 -R
选项。 - flodel
dbname = tempfile()
,它将设置、使用和销毁一个临时数据库,只有抽样行才会被读入R。 - G. Grothendieck