我一直在尝试处理大量数据(几个GB),但我的个人电脑无法在合理的时间范围内完成,所以我想知道我有哪些选项?我使用了Python的csv.reader,但即使获取20万行也非常缓慢。然后我将这些数据迁移到了一个sqlite数据库,它检索结果更快,而且不消耗太多内存,但速度仍然是一个主要问题。
那么,再次问一遍...我有哪些选项来处理这些数据?我想使用Amazon的spot instances,它似乎很适合这种情况,但也许还有其他解决方案需要探索。
假设抢占式实例是一个不错的选择,考虑到我以前从未使用过它们,我想问一下可以从中期望什么?有没有人在这方面有经验?如果有,你的工作流程是什么?我认为我可以找到一些详细介绍科学计算、图像处理或类似事情的工作流程的博客文章,但我没有找到任何东西,如果你能解释一下或指出一些链接,我会非常感激。
那么,再次问一遍...我有哪些选项来处理这些数据?我想使用Amazon的spot instances,它似乎很适合这种情况,但也许还有其他解决方案需要探索。
假设抢占式实例是一个不错的选择,考虑到我以前从未使用过它们,我想问一下可以从中期望什么?有没有人在这方面有经验?如果有,你的工作流程是什么?我认为我可以找到一些详细介绍科学计算、图像处理或类似事情的工作流程的博客文章,但我没有找到任何东西,如果你能解释一下或指出一些链接,我会非常感激。
先行致谢。