我正在处理一个数据仓库,寻找一种使用Python的ETL解决方案。 我已经尝试了SnapLogic作为ETL工具,但我想知道是否还有其他的解决方案。
这个数据仓库才刚刚开始。我还没有导入任何数据。最初我想要加载的数据子集很容易就会超过100GB。
我正在处理一个数据仓库,寻找一种使用Python的ETL解决方案。 我已经尝试了SnapLogic作为ETL工具,但我想知道是否还有其他的解决方案。
这个数据仓库才刚刚开始。我还没有导入任何数据。最初我想要加载的数据子集很容易就会超过100GB。
是的。只需使用适用于您数据库的DB-API接口编写Python代码即可。
大多数ETL程序提供花哨的“高级语言”或拖放式GUI,这些并没有太大帮助。
Python同样具有表达能力和易用性。
避免混淆。只需使用纯正的Python即可。
我们每天都在这么做,而且非常满意结果。它简单、清晰且高效。
pyodbc
从各种数据库源中提取数据。然后使用pandas
数据框来根据组织需求操纵和清理数据。然后再使用pyodbc
将其加载到你的数据仓库中。