希望我接下来要写的内容有一些意义。
如果你看一下如何在R语言中处理一个50GB大小的CSV文件,就可以了解如何像SQL一样查询csv文件。
在我的情况下,我存储了大量数据,这些数据以大型(或大于我的RAM)平面文件的形式存在。
例如,我想将其中一个文件存储为SQLite数据库,而不必完全加载它到内存中。想象一下,如果您可以自动读取适合RAM的有限块的文件,并将其存储到SQL中,然后释放一些内存,处理下一个块,直到整个文件都在数据库中。在R中是否可行?如果该表可以存储为tibble,则更好,但这并非至关重要。感谢任何建议。
例如,我想将其中一个文件存储为SQLite数据库,而不必完全加载它到内存中。想象一下,如果您可以自动读取适合RAM的有限块的文件,并将其存储到SQL中,然后释放一些内存,处理下一个块,直到整个文件都在数据库中。在R中是否可行?如果该表可以存储为tibble,则更好,但这并非至关重要。感谢任何建议。
sqldf
:虽然它确实提供了以SQL方式访问大量数据的功能,但它假定数据已经驻留在内存中。你所说的只是一次加载部分数据到内存中,这表明你需要DBI
和RSQLite
包。你应该弄清楚如何将50GB的数据导入sqlite文件,无论是通过R还是直接导入。 - r2evans