psycopg2
库并将csv文件的行流式传输到SQL实例。我有三种方法可以做到这一点:逐行处理:读取每行,然后提交插入命令,最后提交。 批量流:读取每行,然后提交插入命令,每10行或100行后提交一次。 整个csv:读取每行并提交插入命令,然后只在文档末尾提交。
我的担忧是这些csv文件可能包含数百万行,运行上述任何一个选项的过程似乎都不是明智之举。我有哪些替代方案呢?基本上,我们在BigQuery中有一些原始数据,在导出到GCS之前进行预处理,以准备将其导入到PostgreSQL实例。我需要将这些预处理数据从BigQuery导出到PostgreSQL实例。这不是此问题的重复,因为我更喜欢从BigQuery导出数据到PostgreSQL实例的解决方案,无论是通过GCS还是直接导出。